¿Qué hace un científico de datos?

Inicialmente, en el sector de Big data había una mezcla de perfiles entre informáticos, estadísticos, telecos, matemáticos, etc. Casi todos solían hacer tareas de arquitectura de sistemas, manejando frameworks y servidores con soltura, y también hacían labores de preparación y análisis de datos. Dependiendo de su background eran más hábiles en uno u otro ámbito. Actualmente, cada vez se diferencian más los perfiles y hay especialistas para cada tipo de trabajo, aunque nunca hay que perder de vista los aspectos en los que uno no es especialista y hay que adquirir conocimientos transversales.

Es por esto que los científicos de datos se centran, entre otras, en las siguientes tareas:

  • Descubrir con los expertos de negocio qué pretenden hacer, con qué datos se cuenta, qué es lo que no conocen, etc.
  • Proponer alternativas a desarrollar para resolver los problemas e incluso ofrecer posibles usos de los datos con los que se cuenta.
  • Llevar a cabo experimentos, definir hipótesis y realizar tests.
  • Sumergirse en los datos de negocio, buscar los más importantes y pedir los que puedan proporcionar valor.
  • Asear los datos, pelearse con ellos y dejarlos preparados para comenzar el análisis. (70-80% del tiempo) 
  • Explorar los datos y jugar con ellos para dar respuesta a las cuestiones planteadasd y descubrir otros aspectos de interés que puedan ser modelizados.
  • Probar diferentes modelos y algoritmos. Utilizar herramientas de Machine Learning y posteriormente validar los modelos seleccionados.
  • Analizar los resultados y evaluar las relaciones entre variables.
  • Generar un esquema de aprendizaje que permita retroalimentar a los algoritmos elegidos.
  • Llevar a producción los modelos y resultados basados en los datos, de este modo se finaliza el producto basado en datos y se ofrece la visualización de los resultados más destacados.
  • En caso de que sea necesario, elaborar un informe, que puede ser interactivo.
  • Resumir los principales resultados de valor conseguidos para la empresa y que permitan tomar las decisiones basadas en datos.

Todas estas actividades se pueden mejorar continuamente, tanto con conocimientos teórico-prácticos como con otros más relacionados con las herramientas informáticas, que no han parando de evolucionar en los últimos años.