Llevo varios días dándole vueltas a publicar o no este post. Mejor dicho, a publicar una entrada diciendo abiertamente mi opinión sobre lo que está pasando con los ya numerosos ‘eventos big data’ o simplemente hacer un resumen de las presentaciones, los asistentes y los temas tratados. Finalmente, he optado por lo primero, y para ello también hablaré de algunos temas que los ponentes trataron en sus presentaciones.

momento de la reunión en el palco de honor del Bernabéu

Hace unos días tuvo lugar el Smart Data Spain Summit 2016 en el Estadio Santiago Bernabéu, en Madrid. Esta reunión transcurrió a lo largo de un día en el las instalaciones del palco de honor de dicho estadio, las cuales son un entorno impresionante, magnífico…, no es porque uno sea del Madrid, claro :-p

Este blog ya tiene más de 3 años y desde sus inicios comencé a asistir a las primeras reuniones sobre big data que iban teniendo lugar en nuestro país. Al principio eran pocas, resultaba emocionante ver reunidos a (unos pocos) expertos en la materia dando charlas y haciendo presentaciones sobre lo que hacían en esos momentos, o sobre lo que estaba por llegar. Recuerdo un viaje que hice a Barcelona sólo para asistir a una reunión sobre aplicaciones de MongoDB y reunirme después con la responsable de marketing de la consultora big data que hoy quizá es la más importante de España.

Ahora, en 2016 podemos ver cada semana incluso varios eventos big data sólamente en una ciudad como Madrid o Barcelona. El grado de implantación de herramientas que manejan macrodatos ha aumentado, en 2013 casi no se podían ver casos de aplicaciones reales en empresas consolidadas (una anécdota que me confesó alguno de los que estuvieron involucrados es aquél gran banco que impulsó mucho el big data por aquel entonces y que en realidad sólo manejaba sus datos con el tradicional SQL; pero hacer marketing y evangelizar, vaya si lo hicieron! Hoy en día claro que están manejando big data ‘del bueno’ y les va fenomenal, con lo que hay que extraer una moraleja de todo aquello). A pesar de todo, de la proliferación de eventos, sigue siendo difícil encontrar empresas que tengan implantadas estrategias big data y equipos de expertos trabajando con sus tecnologías, más allá de los ‘proof of concept’ o algunos sectores que como la banca.

En un contexto así, podríamos pensar que un mayor número de reuniones sobre big data amplía conocimientos y resulta enriquecedor, pero me temo que no está siendo del todo así. El conjunto de ideas que se exponía hace años para poner en contexto el big data y todo el escenario datacéntrico que está por venir siguen siendo hoy repetidas en cada uno de estos eventos (las tres V’s, los datos como infraestructura, la democratización, los malogrados silos, etcétera), convirtiendo estas ideas en mantras. Mantras que en muchos casos sonroja escuchar como algo ya alcanzado, esa llamada ‘democratización de los datos’, o eliminar los silos. Y es que hemos construido un lenguaje y una realidad paralela, cuando la realidad del día a día todos sabemos que no es así, ni lo va a ser en un corto plazo.

El data scientist se enfrenta en su día a día con problemas que apenas son mencionados en estas charlas. La falta de disponibilidad de datos, problemas en la calidad, el data wrangling como una tarea que se come la mayor parte del tiempo, y uno que vamos a ir resaltando aquí ya que ni se mencionó en el pasado #3S2016: el poco acceso a formación data science actualizada y de calidad.

20160512_170736

Hay que bajarse del palco y correr en el campo

En el sector de la ciencia de datos los actores principales no deben cometer el error de verse a sí mismos por encima de una realidad que es tozuda y presente, como si estuvieran instalados en un palco de honor. Vivimos en un mundo que no sabe todavía qué es eso de big data, que está lleno de profesionales sin acceso a una necesaria capacitación en las herramientas que tendrán que manejar de aquí a menos de 5 años, que en muchos casos no disponen de datos con la suficiente calidad como para extraer información veraz, por muy voluminosos, rápidos y variados que sean.

codereLinkedin

Sin ir más lejos, la pasada semana leía en Linkedin a Jose Antonio Sanchez Esteban, CTO en CODERE y uno de los ponentes más destacados en esta reunión, expresando esta misma sensación que aquí trato de describir. Y es que tres-cuatro años después seguimos oyendo los mismos mantras, las mismas V’s sin que se estén transmitiendo ideas nuevas. Todo esto cuando estamos hablando de lo que necesariamente ha de ser la punta de lanza en la innovación tecnológica: los datos. Y es que los datos están llamados a redefinir la tecnología por el devenir de fenómenos como la movilidad, internet, o la nube. Sin embargo, ¿cómo se puede innovar si estamos repitiendo una y otra vez lo mismo, sin aportar nada más? Lo veo complicado.