En el Google I/O de este año ya hay alguna sorpresa. Google ha lanzado, si bien de momento como beta privada, una plataforma para gestionar datos como servicio. Según han comentado, se complementa con la tecnología Google Query y hace que el Big Data sea accesible para cualquiera (ya veremos si cumple las espectativas)

cloud-data-flow-600x400

Una de las declaraciones que más están resonando es que el nuevo esquema de Dataflow es el sucesor de MapReduce dentro de la compañía. “Cloudflow does for entire pipelines what MapReduce did for single flows” Fueron los mismos de Google los que pusieron en marcha, ahora hace unos diez años el algoritmo MapReduce y el entonces llamado Google Distributed File System, que pasaría después a conocerse con el nombre de HDFS, tras la creación de Hadoop por parte de Doug Cutting y M. Cafarella.

Vamos con las características principales de Cloud Dataflow: permitirá a los desarrolladores crear pipelines de datos, facilitará su almacenamiento, transformación y análisis. El servicio que ofrece ser puede realizar en tiempo real trabajando por lotes (batch) en el sistema. Todo suena muy bien, pero por el momento la beta es privada y por tanto no será fácil acceder al servicio desde ya y comprobar sus mejoras respecto a MapReduce.

png;base646b38d5577eeeb403

(UI de monitorización del nuevo Google Cloud Dataflow mostrado en la keynote del IO. Fuente: google cloud platform blog)

El enfoque según la compañía del motor de búsqueda es “contribuir a que los usuarios puedan obtener valor de sus datos al tiempo que disminuyen sus costes operativos sin tener los inconvenientes de tener que desplegar, mantener y escalar con una infraestructura”

En la demo que han mostrado durante la presentación del I/O’14 se ha usado este nuevo servicio para hacer análisis de sentimiento sobre el Mundial procesando millones de tweets (qué saldría referido a Casillas y Del Bosque?…)

Amazon ya venía ofreciendo un servicio de ‘data pipeline’ (Redshift), en tiempo real con Kinesis. Quizá sea un movimiento que busca tapar esta carencia en el Google Cloud Platform.

Se amplía el abanico de posibilidades. ¿Realmente quieren jubilar MapReduce los de Google? Lo veremos

Enlaces de interés:

Google Cloud Platform blog

TechCrunch

ZDnet