Lo que importa son los datos y la ciencia. Data quality

Llevo ya mucho tiempo queriendo hacer esta entrada. Un post en el que se hable no tanto de la tecnología y de herramientas por nombre y apellidos sino de data quality como piedra angular de las buenas prácticas en la ciencia de datos. Voy a intentar hacerlo además de una forma ejemplificada contando algunas historias a modo de anécdotas con las que me he ido encontrando durante el año pasado.

Data Quality

Imagen: hablemos de calidad (fuente: benefitfocus)

 

Un buen propósito para 2019 en vuestras empresas:

Por lo que más queráis, no sigamos con esta máxima de datos, los que sean y como sean. Sin calidad en los datos (y esto también involucra los metadatos) no podemos obtener resultados de calidad. Es imposible. Si hacemos hamburguesas con carne que está en mal estado, las hamburguesas no pueden ser buenas. A esto sumémosle la incertidumbre de no saber cuán malos o buenos son unos datos por no tener adecuadamente categorizados los mismos con metadatos, esto es, con información acerca del dato en sí (Ej: cuando ha sido recogido, que exactitud de medida tiene el sensor, quién realiza la toma de datos, cual fue el propósito, margen de error de medida, precisión, etc.)

Haciendo salchichas

Imagen: no pensemos en Data Management como algo así nunca más (fuente: DirectIndustry)

Haciendo un poco de historia

Cuando comenzó este blog, llamándose big data 4success allá por 2013 estábamos en un momento en el que tenía que haber un espacio porque no había nada en español que hablase de macrodatos, en el que nos hiciéramos eco de cada una de las novedades a diario, o al menos semanalmente y rebotar desde los medios en inglés aquellas noticias más importantes que estaban ocurriendo respecto al tsunami de los datos. Este papel está más que cumplido; hoy hay muchos que ya lo realizan, tal vez demasiados haciendo lo mismo, no hay más que darse un paseo en twitter o linkedin para ver cómo se ha multiplicado el número de perfiles que van repitiendo una y otra vez las mismas ideas de hace más de 5 años, mantras bien pensantes que a veces acaban produciendo una sensación de reiteración, de vanalidad (de la cual iremos hablando en esta serie de artículos). Es un optimismo un tanto forzado. ¿Es necesario transmitir que todo es maravilloso cuando algo te apasiona? Por supuesto que no; es un deber ser crítico e intentar mostrar las cosas tal y como son.

Entonces la realidad es que en el 2019 tenemos que seguir buscando en SoyData un impacto positivo y una finalidad que aporte. Esa utilidad desde hace ya años la hemos venido ofreciendo con la formación; y nuestra plataforma de capacitación online, sumada a la fórmula in-company involucra ya a miles de usuarios en nuestra academia. Adicionalmente, vamos a enfocar nuestro contenido en el blog a un perfil más crítico, desmitificando y señalando algunos de los vicios que año tras año se ven, y se sienten, en muchas organizaciones con respecto a la gestión de datos.

En este blog se ha hablado a menudo de cierta dualidad, por un lado el discurso oficial, lo que se proclama en las presentaciones. La otra cara de la dualidad es la realidad, aquello que puedes inferir desde dentro de una organización, la cultura REAL del departamento. Es algo así como el AS IS y el TO BE, sólo que sin una componente futura, temporal. Pues bien, el ABISMO que hay entre la situación real y el discurso entusiasta en lo que respecta a la gestión del Data & Analytics, es enorme en muchos casos; sobre todo cuando hablamos de la gran empresa. Esto sí que es una verdad incómoda.

Por qué lo llaman ciencia de datos cuando quieren decir autobombo

Satisfacción Data quality

Imagen: “no se preocupe que yo no miro mientras usted selecciona lo bien que le he atiendo…”

Cómo la recogida de datos invalida muchas operaciones.

Hay encuestas que no merecen llamarse con tal nombre. A modo de idea fuerza, pensad que es absurdo gastar cantidades ingentes en tecnología (licencias, tiers en las nubes y cacharros) pagar nóminas a equipos de trabajo invirtiendo en perfiles muy solicitados, consumir unos recursos que las empresas a veces no tienen, si luego las prácticas, los procedimientos dejan mucho que desear.

Al ‘rey’ en una empresa hay que decirle que va desnudo, es duro pero estamos llegando a extremos absurdos.

Mirémoslo de la siguiente manera: una toma de datos sesgada, bien por las condiciones que se crean deliberadamente o bien por el diseño mismo de la toma de datos, es lo mismo para una empresa que hacer trampas al solitario.

¿Os acordáis de esos trucos que se hacían en los videojuegos para tener mas créditos o más vidas? El starcraft me lo pase a base de escribir ‘show me the money’… Y creo que alguno más que ya no recuerdo. Bueno, esto en la vida real supone una distorsión más, pero si lo que de verdad buscamos es analizar, tomar la temperatura al mercado o a nuestros usuarios… por favor, no perdamos más el tiempo

Empresas como esos grandes almacenes que te ponen las habituales caritas de satisfacción (o no) justo al hacer una compra, delante de quien nos ha atendido. Esto es un sesgo total ya que la mayoría de la gente y esto es psicología del comportamiento básica, lo que tiende es a decir que todo muy bien les haya gustado o no, y el condicionante no va a atenuarse mucho por que el dependiente nos diga que no mira

-Hace no mucho, el garaje oficial donde llevo mi coche me pasaba una encuesta al ir para una revisión y ya antes de que me llegase al email el cuestionario me decían algo así como que lo tengo que poner todo con un excelente y ellos ya me harían luego un descuento… Vale, esto no sirve para NADA. Hay que insistir especialmente en las grandes empresas en esto porque a veces se intenta hacer una competición interior… al estilo de Steve Jobs con Mac vs Apple y bueno, mejor dejar la comparación para un monólogo de humor porque no va más allá.

Me pregunto si los CDOs (Chieff Data Officer) de estas organizaciones existen, buena pregunta, y en caso de existir a qué de dedican. El papel de un CDO, más que ser un friki, programar en 20 lenguajes o dar charlas en escuelas de negocio debería ser establecer y hacer valer unas buenas prácticas, unos procedimientos comunes en toda la organización en lo que respecta a data y analytics. Creo que ya debemos pasar página en esto de ver quien tiene el datalake más grande o quien habla de forma más críptica en las conferencias

-Ese gran banco, del cual no mencionaré aquí su nombre claro, que nos castiga a los clientes con cuentas mercantiles cada cierto tiempo con encuestas telefónicas en las que las preguntas son del tipo: “cuál es su puntuación respecto al producto financiero X que le ofrecemos lleno de ventajas y que puede pagar en cómodos plazos”. A ver, para, STOP. O haces una acción comercial, o estás interesándote por la opinión real del cliente. Todo a la vez es ridículo. Las preguntas en una encuesta deben ser lo más claras y neutras posible. Lo contrario es perder el tiempo, y hacérselo perder a tu cliente molestándole, así de claro. Luego cuando veo esos ejércitos de data scientists y oigo de las impresionantes super máquinas que manejan datos enoooormes, lo que pienso es: ¿de verdad serán todos los datos que recogen así o que porcentaje será ‘potable’? Espero que por lo menos tengan identificado en el departamento correspondiente el autobombo de los datos fríos, crudos, que son los que importan.

-Ya el último de nuestros casos de estudio de hoy…ese evento al que vas, motu propio (en realidad no sabes donde te metes) y al finalizar, como los organizadores QUIEREN SABER QUÉ OPINAS de repente se cruza en tu camino una azafata que casi te hace un placaje y con cara de ‘o me haces la encuesta o no te vas de aquí’ te da pocas opciones de cara a rellenar el consabido formulario. Pues bien, de nuevo nos vamos a condicionantes ambientales que devalúan, por no decir directamente que hacen inservibles los resultados. Está claro que la distorsión en este caso hará que la valoración global del evento baje muchos puntos. Al menos ese suele ser mi caso

En resumen: seamos data céntricos pero de verdad. Hacer trampas al solitario no sirve en el mundo de los negocios, y si lo que fomentamos en una gran empresa es que estas triquiñuelas sirvan para algún tipo de recompensa o progreso, algo se está haciendo muy mal. Ni siquiera esos ejecutivos que confunden Java con Javascript, accionistas, inversores o lo que sea deberían prestar atención a este tipo de valoraciones. Es como tener un CIS dentro de cada empresa. Y las empresas no cobran impuestos para financiarse…

Pongamos data quality en nuestras vidas, y también en nuestras organizaciones. EL CDO debe velar por la calidad de los datos y por una buena gestión de los mismos. Luego ya, que usemos la librería Theano, que utilicemos random forest o que estemos aplicando sistemas de aprendizaje por refuerzo basados en la recompensa y la psicología conductual… Todo eso viene después y si la materia prima no es buena,…

Repetid conmigo: No (good) data, No insights

SIGUIENTE ENTREGA: la mirada puesta en 2019