Que es big data

Big Data. Es un término que está de moda y en el mundo de la tecnología empresarial es fácil oírlo día a día, a menudo asociado a grandes expectativas. ¿pero de qué se trata? ¿Qué es el tan mencionado Big Data?

Sirvámonos del siguiente ejemplo que nos servirá de comparación,

Supongamos que tenemos una planta a nuestro cargo. La regaremos, si somos aficionados a la horticultura, cuidaremos de ella con mucho mimo. De esta planta podremos saberlo casi todo: cuántas hojas tiene, el número exacto de frutos que da, sus medidas y la cantidad de agua que necesita al día con bastante exactitud.

Ahora bien, si tenemos que encargarnos de todo un bosque ya la cosa cambia. La información relativa a nuestro bosque empieza a ser más completa. Tal vez en lugar de saber qué medidas exactas tiene cada árbol y cuántas hojas hay en total en el bosque debamos atacar el problema mediante una aproximación diferente a cuando teníamos una información más sencilla y abordable.

Siguiendo con el ejemplo del bosque, el número de hojas en realidad no lo podríamos calcular con exactitud dado que cada día en cada árbol hay hojas que se caen y otras hojas germinan. Por tanto el número exacto será prácticamente imposible de calcular, sí que podríamos hacer una estimación y tal vez calcular una densidad promedio de hojas en base a unas observaciones que hagamos en distintas partes del bosque.

Pero el bosque no son árboles únicamente, y si además estamos a cargo de un bosque tropical vamos a tener un gran abanico de especies distintas: cedro, eucalipto, caoba, roble, moena… se calcula que en los bosques tropicales existen unas 2.500 especies de árboles distintas. A las que debemos sumar las especies de animales, otros vegetales como hierbas y plantas e incluso las especies que aún no se han descubierto pero sí que se encuentran en nuestra selva. Habrá por ende, variedad en la información. Si además nos tenemos que hacer cargo de todos los bosques tropicales que hay en el mundo, estaremos ante otro problema añadido: la distribución de nuestras fuentes de datos.

Ante tan gran cantidad de información con un origen diverso, con una variedad y una dinámica igualmente grandes, estamos ante el concepto de lo que se ha venido a llamar big data.

No existe una única definición oficial, de hecho el concepto es algo diferente entre algunos autores. Para muchos de nosotros, Big Data es más una mentalidad que una tecnología basada en un software u otro. Reproduzco aquí una de las definiciones más aceptadas dentro del amplio abanico que nos podemos encontrar haciendo una busqueda:

Gartner (2011):

“Big Data son recursos de información de alto volumen y alta velocidad y/o de gran variedad que requieren nuevas formas de procesamiento para permitir una mejor toma de decisiones, nuevos descubrimientos y optimización de procesos”

DataDeluge