Inicialmente, en el sector de Big data había una mezcla de perfiles entre informáticos, estadísticos, telecos, matemáticos, etc. Casi todos solían hacer tareas de arquitectura de sistemas, manejando frameworks y servidores con soltura, y también hacían labores de preparación y análisis de datos. Dependiendo de su background eran más hábiles en uno u otro ámbito. Actualmente, cada vez se diferencian más los perfiles y hay especialistas para cada tipo de trabajo, aunque nunca hay que perder de vista los aspectos en los que uno no es especialista y hay que adquirir conocimientos transversales.
Es por esto que los científicos de datos se centran, entre otras, en las siguientes tareas:
- Descubrir con los expertos de negocio qué pretenden hacer, con qué datos se cuenta, qué es lo que no conocen, etc.
- Proponer alternativas a desarrollar para resolver los problemas e incluso ofrecer posibles usos de los datos con los que se cuenta.
- Llevar a cabo experimentos, definir hipótesis y realizar tests.
- Sumergirse en los datos de negocio, buscar los más importantes y pedir los que puedan proporcionar valor.
- Asear los datos, pelearse con ellos y dejarlos preparados para comenzar el análisis. (70-80% del tiempo)
- Explorar los datos y jugar con ellos para dar respuesta a las cuestiones planteadasd y descubrir otros aspectos de interés que puedan ser modelizados.
- Probar diferentes modelos y algoritmos. Utilizar herramientas de Machine Learning y posteriormente validar los modelos seleccionados.
- Analizar los resultados y evaluar las relaciones entre variables.
- Generar un esquema de aprendizaje que permita retroalimentar a los algoritmos elegidos.
- Llevar a producción los modelos y resultados basados en los datos, de este modo se finaliza el producto basado en datos y se ofrece la visualización de los resultados más destacados.
- En caso de que sea necesario, elaborar un informe, que puede ser interactivo.
- Resumir los principales resultados de valor conseguidos para la empresa y que permitan tomar las decisiones basadas en datos.
Todas estas actividades se pueden mejorar continuamente, tanto con conocimientos teórico-prácticos como con otros más relacionados con las herramientas informáticas, que no han parando de evolucionar en los últimos años.