SAS y la analítica avanzada

SAS analitica avanzadaLeire Legarreta (linkedin) es una data scientist que lleva más de doce años trabajando en el sector financiero. Una de las herramientas que más ha utilizado en sus trabajos tanto desde el Departamento de Riesgos como desde el Departamento de Marketing es SAS.

En este post nos explica algunos de los aspectos de este entorno analítico, por qué es una opción a tener en cuenta a la hora de hacer data mining o ciencia de datos y además establece una comparativa muy útil con otros sistemas similares de entorno de programación estadística.


¿Conocéis SAS?

Si trabajáis en el mundo de los datos estoy segura de que es así, aunque sólo sea como referencia.

SAS es una herramienta que tiene una cuota de mercado en el mundo de la analítica avanzada, según el propio SAS, superior al 35%, más del doble de su competidor más cercano.

SAS Logo S285 SAS white JPEG

Imagen: logo SAS

Es el líder inquebrantable en minería de datos y analítica predictiva: sus soluciones abarcan campos desde la gestión de los riesgos hasta la inteligencia en fraude y seguridad, desde el análisis de datos clínicos hasta la inteligencia de clientes o soluciones específicas para Hadoop. Así con un largo etc.

Es un potente software de analítica avanzada que presenta uno de los mayores portfolios de innovadores algoritmos que nos pueden ayudar a resolver incluso los problemas más complejos, tanto en la fase de preparación de datos, en la de creación de modelos estadísticos o de minería de datos de forma rápida y ágil, o en su capacidad para trabajar con grandes volúmenes de datos.

Para dar respuesta a las necesidades de sus distintas líneas de negocio, SAS ofrece multitud de productos y servicios para todos los perfiles de usuario: desde los usuarios más inexpertos hasta los más experimentados y gracias a la facilidad de manejo que ofrecen muchas de las soluciones SAS, es posible que los profesionales del sector introduzcan en su día a día la herramienta para realizar sofisticados informes o incluso para modelizar comportamientos de clientes, sin tener grandes conocimientos estadísticos.

¿SAS, R o Python?

El debate entre si SAS o R ha sido seguramente el debate más recurrente entre los expertos en analítica en los últimos años, y en el que probablemente Python cada vez con más fuerza también tiene algo que decir.

Podemos hacer una comparativa rápida entre estos tres ecosistemas:

  • SAS ha sido el líder indiscutible del mercado en el mundo de la analítica comercial. El software ofrece soluciones como el Guide y el Miner que son enormemente potentes y que ofrecen una gran cantidad de funcionalidades estadísticas para que sus usuarios aprendan rápido y sin necesidad de ser expertos programadores.
  • R es la competencia Open Source de SAS, y aunque tradicionalmente ha sido una herramientas más utilizada por académicos e investigadores, cada vez son más las empresas que están utilizándola ya, por la relación coste-eficiencia y por la gran cantidad de documentación disponible en la red sobre la herramienta.
  • Python en sus orígenes era un lenguaje de scripting en código abierto, y su uso está creciendo cada vez más con el tiempo. Actualmente dispone de funcionalidades para prácticamente cualquier función estadística o de construcción de modelos.
Imagen: ejemplo de la GUI en el entorno SAS (fuente: SAS)

Imagen: ejemplo de la GUI en el entorno SAS (fuente: SAS)

Si queremos comparar los tres entornos, el resultado de la comparativa va a depender mucho de qué atributos vayamos a considerar.

  • Podemos hablar del ratio coste-eficiencia, donde R y Python ganan la batalla a SAS debido al coste de la última.
  • Podemos hablar del coste de aprendizaje, donde aquí seguramente SAS saldrá victorioso.
  • Podemos hablar de todas las opciones que ofrecen en cuanto al manejo de datos, en cuando a las capacidades gráficas, las funciones estadísticas y de modelización que presentan,…
  • O podemos hablar de qué herramienta nos va a resultar más útil en la búsqueda de un puesto de trabajo o de una promoción profesional, donde aquí nuevamente SAS gana la batalla. La mayoría de las grandes empresas trabajan con SAS, si bien es cierto que las ofertas de trabajo en las que se solicitan R y Python han aumentado en los últimos años, sobre todo en empresas de nueva creación.

Y con esta realidad me quedo. A día de hoy la mayor parte de las grandes compañías trabajan con SAS, y aunque sin duda no tenemos que perder de vista las otras soluciones, conocer y manejar SAS puede abrirnos muchas puertas en el mercado profesional.

Aunque poco a poco el mercado está girando hacia soluciones como R o incluso Python, el coste del cambio es importante y me atrevería a decir que tanto las compañías como los profesionales somos en cierta forma “clientes cautivos” de SAS.

¿Por qué SAS?

Con todo esto, la realidad es que SAS es capaz de hacernos la vida más fácil:

  • El sencillo acceso a toda la información de la que necesitamos disponer,
  • Su capacidad para el manejo de grandes volúmenes de datos,
  • Las funcionalidades estadísticas y de construcción de modelos que nos ofrece la herramienta,
  • Y por supuesto las opciones de automatización de los procesos, que en muchos casos podemos planificar y ejecutar sin la necesidad siquiera de apretar a un botón.
SAS Analitica avanzada

Imagen: ejemplo de resultados de modelos estadísticos (componentes principales y MHL) con SAS Enterprise Miner (fuente: predictiveanalyticstoday.com)

Para los profesionales que trabajamos programando con SAS, años de trabajo y de aprendizaje se han transformado en un gran activo para nosotros, tanto en lo que se refiere a la familiaridad que hemos adquirido en el manejo de la herramienta como en lo que se refiere a la batería de programas que hemos ido diseñado y validando a lo largo del tiempo y que podemos reutilizar una y otra vez para abordar tareas como:

  • Construir modelos estadísticos de forma rápida y con gran control sobre los procesos,
  • Calificar y segmentar periódicamente nuestra base de clientes en base a los modelos construidos,
  • Seleccionar los públicos de todas las acciones comerciales, maximizando el beneficio esperado a partir de las variables modelizadas: como la propensión a la contratación de un producto o la probabilidad de fuga, la pérdida esperada, o el coste de cada acción,
  • Hacer un seguimiento exhaustivo de toda nuestra actividad, o
  • Generar sofisticados informes y cuadros de mando, customizados tanto en su contenido como en su diseño.

En la academia SoyData tenemos ya listo un curso impartido por Leire sobre SAS: Aprende a programar con SAS de 4 horas de duración, con ejercicios y 100% online y en español ¡no os lo perdáis!

Caratulas2

imagen: curso SAS, academia SoyData