En el blog oficial de Databricks, empresa que da soporte al proyecto Apache Spark, los cofundadores de esta solución híbrida han hecho una revisión de lo mucho que han conseguido en 2014. Asimismo nos avanzan lo que está por llegar en este año 2015 que acaba de echar a andar.

Matei

Matei Zaharia

patrick

Patrick Wendell

Todo el mundo habla de Spark y sin duda lo podríamos situar como el principal fenómeno del pasado año en BD&A (Big Data & Analytics). ¿Qué nos preparan para 2015? Veamos:

En 2014 los de la empresa capitaneada por Matei Zaharia, fue añadiendo elementos como librerías de machine learning, soporte a otros idiomas, procesamiento mediante grafos y su módulo SQL para datos estructurados.

Para este año las novedades principales nos las resumen en tres grandes bloques, a saber

  • Mayor potencia en datos a gran escala. Librerías como SparkR y nuevas API’s específicas para analítica y procesamiento de grandes datos pueden ser críticas en esta potenciación.
  • Integración. La integración de distintas fuentes de datos es otro de los grandes platos fuertes para este año en Spark. Vamos a poder conectar en nuestro sistema bases de datos tradicionales con spark SQL y datos no relacionales a la vez.
  • La nube de Databricks. Con el sistema Databricks Cloud se busca simplificar el despliegue de un proyecto Big Data, que normalmente puede llevar incluso meses si lo intentamos hacer ‘on premises’ dentro de nuestra propia organización.