Spark para Científicos de Datos

Spark se ha incorporado recientemente a la caja de herramientas de la mayoría de los científicos de datos. Es un framework open source para la computación en paralelo utilizando clusters. Se utiliza especialmente para acelerar la computación iterativa de grandes cantidades de datos o de modelos muy complejos. Trabaja directamente en memoria y con datos almacenados en Hadoop.

SPARK PARA CIENTÍFICOS DE DATOS

La principal ventaja que presenta frente a otras plataformas es su velocidad. Por ejemplo, es de 10 a 20 veces más rápido que Map Reduce. Y, especialmente, para científicos de datos propone herramientas acordes con las necesidades y conocimientos más habituales. Para ello, se pueden utilizar las siguientes librerías en nuestros proyectos big data:

Algunas de ellas están más desarrolladas, por ejemplo PySpark y MLlib incluyen muchas herramientas para modelización. Mientras que por otra pare, SparkR, todavía es bastante nueva y sólo incluye opciones para data wrangling y modelos GLM. Prometen mejoras y nuevas funciones para los amantes de R en la próxima versión, así que no tenemos que preocuparnos.

Con todas estas librerías podemos completar casi cualquier proyecto de análisis de datos que nos planteen. Además, la comunidad de usuarios de Spark es muy activa, y proporciona mucha ayuda, lo cual supone una ventaja a la hora de trabajar con este framework.