Blog

MIgrando de pandas a spark dataframes

13/08/2015

Apache Spark ha incluido a partir de la versión 1.3 y mejorado en la 1.41 la nueva estructura de datos interna: los dataframes.

Los Dataframes son una mejora a los RDD. Los objetivos de este nuevo tipo de datos son:

  • Mantener todas las ventajas de cálculo paralelizable de los RDD
  • Incluir funcionalidad que no tenían los RDD y si otros lenguajes como R o python Pandas.
  • Simplificar y potenciar el manejo de los datos.
  • Incluir de serie la posibilidad de usar SQL contra la información de los dataframes.
  • Mejorar las opciones de importación/exportación de los dataframes.
  • Permitir la conversión bidereccional entre RDD <-> Dataframes.

Hoy se ha publicado un artículo muy bueno sobre como migrar de Python Pandas a Dataframes y de paso una muy buena introduccion a los Apache Spark Dataframes.

Los dataframes es un avance significativo y cualitativo en la forma de analizar información con apache spark. Y ya se sabe: programador contento proyecto que lo nota.

Además recomendamos darle un vistazo al manual de dataframes de apache spark en la página de databricks: Spark SQL y Dataframes.

¿todavía no te has actualizado a la versión 1.4.1 o la 1.5 (que llegará muy pronto) de Apache Spark? Merece la pena y mucho.

 

También te puede gustar…

Caso de éxito: Fronda

Caso de éxito: Fronda

Fronda, es una cadena de centros de jardinería que cuenta con una tienda online que opera por toda España con la que hemos colaborado.

ASPgems icon
C/ Sextante, 9
28023 Madrid,
España

Hablemos.

A %d blogueros les gusta esto: