REPASO 2018 Y VISIÓN DEL 2019

Hacemos en varias entregas una revisión a lo acontecido, con un repaso 2018 y enumeramos lo más importante de 2019 para empezar el año con pasos firmes. Vamos allá!

DESTACADO DE 2018

1543789354423

Imágenes: de nuevo los sondeos difieren notablemente con los resultados

fotonoticia_20181202230532_640

Imágenes: de nuevo los sondeos difieren notablemente con los resultados

 

Lecciones de las Elecciones. ¿Predicciones o Prescripciones?

Recientemente fueron las elecciones andaluzas en el sur de España. Hemos podido ver una vez más en los últimos años la sorpresa electoral: los sondeos marcan un patrón y hay un resultado completamente diferente; además muy diferente de lo que se ha defendido en la gran mayoría de medios de comunicación.

IMAGEN ANA PASTOR

Imagen: la conocida periodista Ana Pastor con los primeros resultados (La Sexta)

Esto daría pie a múltiples análisis, nosotros aquí podemos extraer varias lecciones de cara a la ciencia de datos y el uso que se hace de ella y la estadística en los sondeos electorales, lo que se conoce como demoscopia.

Realmente la situación ha cambiado totalmente en lo respecta a las predicciones electorales y concretamente la demoscopia electoral los estudios, algunos de ellos bastante complejos e intensivos en datos para anticipar lo que será un resultado electoral. No sé si recordaréis hace años ya que se dió una situación en pleno inicio del boom del big data en la cual parecía que mediante los análisis matemáticos en los estudios demoscópicos los datos podían predecir las elecciones a la perfección. En el caso concreto de la segunda elección de Obama (2012), el analista Nate Silver realizó una predicción casi perfecta (LINK). Nos las veíamos en aquél momento muy bien: la ciencia de datos podía predecir resultados a la perfección… Sin embargo los vientos han cambiado y nos hemos dado de bruces con la realidad; ya hicimos también una entrada en la que hablamos del impacto de la analítica de datos en unas elecciones generales al Parlamento de España.

IMAGEN NATE SILVER

Imagen: Nate Silver y su predicción casi perfecta de las elecciones USA 2012 (Fuente)

Ha habido un cambio enorme aparentemente esto sobre esto. Vamos a plantear alguna hipótesis tal vez arriesgada más adelante pero siempre habrá que empezar con el beneficio de la duda; básicamente en las últimas elecciones que han habido entre 2016 a 2018 los resultados difieren de manera notable respecto a las encuestas y por supuesto saltan los márgenes de error a menudo (ver las imágenes al inicio del post). Esto último sería algo interesante para poder hablar en un ámbito Data Science: ¿a qué nos referimos con un margen de error y qué sucede cuando los resultados rebasan ampliamente este? Se debe tener en cuenta que el error queda adscrito a la muestra realizada y no a todo el universo. Entonces esto nos llevaría a lo siguiente: si el universo no tiene nada que ver con la muestra, la muestra puede no haber sido la correcta; bien por diversidad, bien por volumen de datos.

¿Se pretende influir o informar?

Si suponemos que los sondeos son prospectivos o predictivos se están haciendo mal, no sirven. Ahora bien, ¿hay un carácter prescriptivo en estos estudios? Se que esto puede ser visto como algún tipo de conspiración o especulación pero realmente a tenor de los resultados empieza a aparecer que los análisis estadísticos, las encuestas se están realizando buscando más la influencia sobre el resultado real que la predicción de dicho resultado. Esto incluso tiene una componente, una derivada sobre otras áreas como por ejemplo la publicidad y el entretenimiento, pero conviene cautela en todo esto.

En este sentido ha habido algunos trabajos en los cuales se decía que el Data estaba consiguiendo que los guiones se adaptaran perfectamente a nuestras preferencias (LINK). Este razonamiento famoso de que Google, Netflix o Amazon conocen tus gustos mejor que tú, a día de hoy creo que esto más allá de una forma de marketing, un clickbait, no se sostiene en mi opinión. (LINK)

Si le damos una vuelta, ¿hay algún interés en  influir sobre la opinión pública, sobre todo en el ámbito electoral? ¿Hay algún tipo de influencia real que se transmita publicando resultados determinados sobre la población? Aquí no soy un experto pero parece ser, según lo que puede dilucidar en algunos medios, que los electorados están más desanimados cuando piensan que el partido al que votarían va a tener unos resultados muy malos o directamente no va a entrar en el Parlamento y lo contrario, si los resultados se anticipan muy buenos mucha gente se sube al barco al final. Esto tiene que ver mucho con la psicología o la cultura de masas. Ahora bien, si alguien intentaba con resultados prescriptivos (es decir, dictando a la población lo que debería elegir) que no ganase Trump, evitar un Brexit, que fuera aprobada la consulta sobre las FARC o contener a VOX en Andalucía,… a conseguido justamente lo contrario. ¿O es que se buscaba justamente esto?

En cualquier caso, la mera posibilidad de que se use la estadística para reforzar un mensaje, en lugar de para analizar objetivamente es algo tan grave que poco a poco la credibilidad va cayendo en picado. Y esto es un problema también para aquellos analistas que están detrás de los estudios. Desde luego creo que más de un responsable debería marcharse y tendría que haber cambios profundos al menos en los organismos oficiales que eleboran estos estudios.

Interpretando los resultados con las gafas puestas

TuitAGARZON

Imagen: Repite conmigo Garzón “la correlación no implica una causalidad”, y habría que ver qué correlación…(Fuente: Tuitter.com)

 

Otra lección aparte es la de la interpretación de resultados. Es ya un clásico movimiento, tanto en los negocios como en política recurrir a visualizaciones de datos muy sofisticadas, muy estéticas, para extraer patrones que nos benefician. Así podemos ver como según de qué color sea el ponente nos encontramos con que la gente que ha provocado el vuelco electoral son ‘los viejos’ que habitan los barrios más acaudalados, o bien son los trabajadores desencantados los que se han ‘rebelado’ contra el sistema establecido. A mí personalmente me decepciona que personas que están en el sector data science, que incluso se puede decir que son grandes profesionales, caigan en estas cosas. Seguramente que es producto de las obligadas directrices de sus respectivas lineas editoriales.

Tezanos

Imagen: Tezanos, responsable del CIS (Centro de Investigaciones sociológicas) dependiente del Gobierno de España (Fuente: RTVE.es)

No obstante, y aunque se quiera justificar lo injustificable, pienso que el deterioro del prestigio en los medios, que el doble discurso y la falta en la calidad de los datos, amerita que en este repaso que estamos haciendo se haga hincapié en todo esto. Le pese a quien le pese. Sigamos!

SIGUIENTE ENTREGA: ¿y los DATOS? Es la CALIDAD, Estúpido