Las empresas en estos tiempos generan toneladas de información, todos los sistemas implementados generan datos, así como los mismo empleados y entidades externas. Para un negocio es crítico analizar estos datos para la toma correcta de decisiones. Es por eso que en años recientes, disciplinas de análisis, interpretación, transformación y modelado de datos han tomado mucha relevancia, con poderosas herramientas y sistemas cada vez más inteligentes.
Uno de los actores que en este ámbito es el llamado científico de datos. Una carrera donde se unen múltiples habilidades de ingeniería y ciencias para atacar los retos de los negocios, proporcionando soluciones en forma de modelos matemáticos que son reproducibles y pueden hacer predicciones o proporcionar información necesaria para toma de decisiones de alta gerencia.
El científico de datos ejecuta proyectos mediante un flujo llamado el ciclo de vida de ciencia de datos, el cual es un proceso iterativo y ajustable. Revisemos los pasos:
- Entendimiento del negocio. El científico de datos se reúne con el cliente (puede ser de la misma empresa) para conocer el problema de negocio. Muchas preguntas deben hacerse para llegar al fondo y sentarán la base para la exploración y consecuente resolución.
- Adquisición de datos. Es aquí donde se hace disponible al científico de datos las fuentes de información y mediante herramientas, obtener los datos requeridos. Éstos pueden ser bases de datos, bitácoras, interfaces, servidores web, etc.
- Preparación de datos. En esta etapa también se hace la limpieza de datos ya que muchas veces vienen incompletas o duplicadas. También se hace la transformación de datos mediante herramientas llamadas ETL.
- Análisis exploratorio de datos. Es donde se define y se refina la selección de variables que serán aplicadas en los modelos.
- Modelado de datos. Se utilizan técnicas de machine learning para identificar el mejor modelo que se puede aplicar, podría ser un modelo matemático o estadístico. Se hacen ensayos de datos para probar el modelo, empezando con un a sección del universo de datos y después se compara con el total. Se hacen ajustes o entrenamiento para llegar al resultado óptimo.
- Visualización y comunicación. De tal forma que se pueda presentar al cliente, se prepara la documentación y tableros de control que mejor describan el modelo en un lenguaje claro y sencillo.
- Implementación. Inicialmente se prepara un ambiente de preproducción para hacer los ajustes necesarios para moverse a producción donde deberá haber tableros de control que monitoreen el desempeño del modelo.
Algunos ejemplos donde la ciencia de datos ha tenido éxito son: el estudio del genoma humano y los efectos y efectividad de medicamentos. En empresas de logística para determinar las mejores rutas, métodos y tiempos de entrega. En la industria aérea para predecir tiempos de arribo y retrasos de vuelos.
En resumidas cuentas, el científico de datos es la persona encargada de encontrar verdades a través del análisis masivo de datos. Es una carrera que está teniendo mucho auge y es muy bien remunerada.
Muy interesante este artículo y eficaz en estos tiempos que se vive en la tecnología.
El modelado de datos se refiere a sacar un modelo como una clase en OOB o a investigar un modelo que encaje con lo que se requiere como producto?
un articulo interesante btw