The New York Times

r-JANITOR-large570

Dicen en este artículo algo que podríamos traducir como “para los científicos de datos, el trabajo de bedel es clave para alcanzar los insights” (sí, en inglés tiene más gracia que traducido..) El caso es que este artículo viene a contarnos una de estas grandes verdades: no se pueden analizar los datos sin antes haberlos puesto ‘en bonito’. Los datos brutos, vienen con muchos errores y defectos, todo aquél que ha manejado datos conoce esta (dolorosa) realidad.

Ficheros de coordenadas que alternan puntos y comas decimales, CSV con separación indeterminada y hojas de cálculo que saltan campos a placer. La codificación en UTF8? pero cuáles son estos caracteres… en fin, que no me quiero acordar.

¿Son Hadoop, Mongo o Spark inmunes a esto? Nathan Yau ha destacado en su blog una gran frase desmitificadora de esta noticia que comentamos:

citaVerdad verdadera…

LEER MÁS