Menudo año llevamos. Cada dos meses surge una tecnología que nos ‘jubila’ el otrora flamante y superpoderoso Hadoop. Primero Spark, ahora Google dice que Cloud Dataflow relegaría a MapReduce.

Todo esto me recuerda que por encima de una mejor optimización y nuevas funcionalidades o mayor capacidad, hay que prestar un poco de atención en la ejecución de los proyectos. Llevando a la práctica la tecnología dentro de un proyecto y asimilando ésta en una organización, no se puede estar cambiando de plataforma cada poco, no es eficaz. Más aún cuando, si somos realistas, la mayoría de organizaciones no se sienten cómodas todavía con Hadoop y estan empezando a realizar esfuerzos para explotar el Big Data, formar o fichar científicos de datos cualificados.

Esto me recuerda a lo que ha sucedido con los aerogeneradores en muchos parques eólicos. Se realiza una fuerte inversión para construir un nuevo parque eólico, en ese momento se adquieren los aeros más adecuados. Son máquinas con una vida útil relativamente larga, y por tanto necesitan ser amortizadas. Pero, quiá ;-) al año siguiente sale el nuevo y flamante super rotor que genera 1,5 más megavatios por unidad y pesa muy poco y tal tal… Tenemos que cambiar lo que habíamos instalado e invertido ya? Está claro que si no queremos arruinarnos, no.

eolica-marina

¿Los cambiamos cada año?

Hace poco un CTO de Databriks (Apache Spark) manifestó que la era MapReduce está llegando a su fín (link). Más recientemente, Google da a entender que MapReduce va a ser superado con el Cloud Dataflow (aún en beta privada).

En la tecnología de procesamiento de datos el lanzamiento de nuevas plataformas se ha venido acelerando desde la eclosión del fenómeno Big Data. Cosa lógica, que viene a reflejar el ruido que hay en el mercado y la enorme potencialidad. Pero ahora bien, la tecnología que rodea a los macrodatos tiene una vanguardia que es lo que vemos en los IO de google, en lo último que se lanza en el MIT y en las presentaciones de nuevas betas. Pero para las empresas que buscan adoptar el big data esto es como la Fórmula 1 y los coches que vemos por la calle. La alta costura marca tendencias, nos fascina y enseña lo que tal vez algún día llevaremos puesto. Pero el ‘pret à porter’ es lo que debe ocupar la mayor parte de su atención. Siendo realistas, MapReduce ahora puede estar empezando a ser una tecnología contrastada y asimilable en multitud de sectores por el común de las empresas.

JEAN_PAUL_GAULTIER_Alta_Costura-_Paris_SS11_imagen_7_de_12_es_Es_1296472786388    longhcamp-SS-2013-pret-a-porter

El alta costura vs el pret à porter.

Así pues, mi propósito en esta entrada es recordar a quien quiera leer esto que no nos deslumbremos con cada nueva abstracción, paradigma o lo que sea. Hay que enfocar, fijarse unos objetivos en el despliegue de una tecnología y tras haber comprobado su beneficio, aprovechar la inversión en tiempo y recursos que hemos realizado.

Y por supuesto la vanguardia, la fórmula1 de la ciencia de datos puede ser fascinante, pero no enterremos MapReduce antes de haber llegado a desplegarlo. Es obvio que el desarrollo tecnológico va más rápido que la adopción cuando un campo está en ebullición.

Hadoop todavía tiene mucho que darnos, incluso muchas de las nuevas plataformas como Spark se montan sobre su ecosistema, no lo sustituyen al menos todavía.