Cloudera, de la mano del famoso cofundador del framework que supone para la mayoría la ‘lingua franca’ en el big data, está de celebración: Hadoop fue creado hace ahora justamente 10 años.

En un corto vídeo que ha sido publicado por esta compañía, el ahora Chief Architect en Cloudera Doug Cutting nos habla de la historia que hay detrás de la creación de Hadoop, sus logros y el futuro de aquí a los próximos años.

hadoop

imagen: Cloudera, vimeo

A destacar:

“Como objetivo de partida, nos propusimos tomar un montón de ordenadores y hacerlos funcionar a todos como una sola máquina”

“Impresiona ver los maravillosos usos que se han hecho del software: salvando vidas en hospitales en el estudio celular del cancer, mejorando los cuidados en bebés prematuros, ¡incluso mi padre encontró a su mujer usando una DateApp que funciona con Hadoop!”

“Al principio, cuando me contactó Mike Olson (fundador de Cloudera), no estaba interesado. No creía que más allá de los tipos de Silicon Valley se fueran a tomar esto en serio.”

“Él (M. Olson) desde el principio estaba convencido de que esto iba a ser una industria de miles de millones de dólares.” (…y no se equivocaba!!)

mcafarella

¿Es Michael Cafarella uno de los grandes olvidados de la historia? (imagen: vimeo)

Tal como Cutting manifiesta en muchas de sus intervenciones, por un lado la naturaleza colaborativa de este proyecto, encuadrado en el open source hasta nuestros días, ha sido una de las claves del gran éxito obtenido. Esto se debe a la capacidad de obtener los beneficios y la implicación de una gran masa crítica de expertos, el crowsourcing podríamos decir.

Otro factor importante en el surgimiento de la analítica de grandes datos ha sido Google. En otra intervención, el cofundador mencionaba claramente cómo Google ha ido mostrando una hoja de ruta en el big data. Y todo comienza con el famoso MapReduce, cuyos principios fueron liberados en el ya mítico paper allá por 2004 en el OSDI, MapReduce: Simplified Data Processing on Large Clusters publicado por dos técnicos de la compañía del buscador.

giveamap

imagen: Strata Conference ’12

Pero mirando al futuro, las ideas de Cutting sobre su ‘criaturita’ son bastante optimistas, en contra de lo que algunos han querido hacer ver. Relacionada: Ha muerto Hadoop…Yaaa? pero si aún no lo sabemos manejar!

“Creo que [Hadoop] va a estar ahí durante décadas. Es el producto de una comunidad”

¿Qué opináis? ¿Tendrá Hadoop un reinado de otros 10 años más? Tal vez algo que conviene mencionar aquí es que, si bien ha sido el sistema que ha sentado las bases de todo esto con su generalización de la computación distribuida para grandes datos, es un entorno complejo, con un aprendizaje complicado, difícil. Por ejemplo ¿habéis probado a hacer un join utilizando Apache Hadoop a secas alguna vez? ¿No os habéis sentido frustrados al instalar en vuestra máquina en modo single o pseudo node el programa, tal y como se descarga del repositorio Apache? Seguro que alguno de los que son expertos diría que para eso no fue creado. Cierto. También es verdad que lo que en un sistema SQL de los de toda la vida es una línea, en Hadoop supone crear un .jar de varias decenas de líneas de código…

Por esto, tal vez el futuro de décadas sea para un ‘entorno’ Hadoop, en el cual en estos años se han ido incluyendo conectores, capas de abstracción y toda clase de elementos. Entre otras muchas cosas, para poder meter esas líneas simples SQL dentro de un cluster con teras y teras de datos.

Feliz cumpleaños!!

hadoop10

imagen: cloudera

Para terminar, que mejor que reproducir en esta entrada la fantástica infografía en la que Cloudera resume la historia de este verdadero SO de datos, tal como su creador lo ha definido en multitud de ocasiones.

hadoop-10th-birthday-infographic