Blog

7 razones por las que deberías usar Apache Spark

31/07/2015

Casi siempre que hacemos una presentación de como abordamos los proyectos de big data nos preguntan: ¿por que nos recomendais usar Apache Spark?

Y algunas de nuestras repuestas son:

Spark nos da mucha más potencia que hadoop

Para empezar Spark es un framework de análisis distribuido en memoría y nos permite ir más allá de las operaciones en batch de Hadoop MapReduce: procesamiento de streaming, machine learning (MLlib), cálculo de grafos (GraphX), integración con lenguje R (Spark R) y análisis interactivos.

Con todo esto ahora somos capaces de desarrollar nuevos proyectos de big data con menos presupuesto y soluciones más completas.

Spark es rápido, muy rápido

Spark puede ejecutar análisis de varios órdenes de magnitud más rápido que los despliegues de Hadoop existentes. Esto significa una mayor interactividad, la experimentación más rápido y mayor productividad para los analistas.

Hacemos agile analytics para nosotros la velocidad en poder experimentar, hacer iteracciones es fundamental. Por supuesto cuando un proyecto entra en producción que Spark sea rápido es una garantía de éxito.

Spark puede coexistir con tu arquitectura de Big Data

Se ha invertido bastante en clusters con Hadoop. Para Spark esto no es un problema puede coexistir con las instalaciones existentes de Hadoop y añadir nuevas funcionalidades. Spark se integra perfectamente con Hadoop y en muchos de nuestros proyectos utilizamos/almacenamos los datos que están en el sistema de fichero de Hadoop HDFS y/o ejecutamos los procesos de Spark usando YARN de Hadoop 2.0. Además puede funcionar con muchos otros productos de Big Data como: CassandraDB, Google Big Query, almacenamiento de Amazon S3, Elastic Search, etc.

Spark entiende SQL

SQL es la lingua franca del mundo de datos estructurados y el módulo Spark Sql es capaz de usar fuentes de datos existentes (HIVE, CassandraDB, MongoDB, JDBC, etc), se puede usar para gestionar las fuentes internas de datos (RDDs – DataFrames) como fueran tablas estructurados, y que las inversiones realizadas en herramientas de BI se puedan acceder a la información gestionada por Spark. Aunque Spark SQL no es la implementación más robusta y completa del mercado ya está lista para ser usada.

Spark mima a los desarrolladores

Cuando una tecnología encanta a los desarroladores se convierten en early adopters y empiezan a usarla y disfrutarla. Spark es un ejemplo de esto,  cuando usan Spark solo tiene que dedicarse a resolver el problema. Spark se ha programado con el lenguaje Scala que un nuevo lenguaje funcional y orientado a objetos. Gracias a Scala son capaces de programar de manera muy concisa y fluida soluciones que antes requerían cientos de lineas. Ademas se puede programar en python, R e incluso en Java.

Spark encanja perfectamente con la Arquitectura Kappa

El tandem Kafka + Spark + NOSql + Scala que forman la Arquitectura Kappa se han convertido en nuestra solución más usada por nuestros clientes. (Más sobre la arquitecura Kappa pronto disponible)

Spark empieza a ser el motor de Big Data

Ahora mismo Apache Spark forma muchos proyectos de Big Data y empresas como IBM, MIcrosoft, Amazon, Google lo intengran con sus productos de Big Data. Y ya se sabe: «nunca nadie ha sido despedido por comprar una tecnología de XXXX». Donde XXXX es alguna de las empresas anteriores y muchas más.

 

 

También te puede gustar…

Caso de éxito: Fronda

Caso de éxito: Fronda

Fronda, es una cadena de centros de jardinería que cuenta con una tienda online que opera por toda España con la que hemos colaborado.

ASPgems icon
C/ Sextante, 9
28023 Madrid,
España

Hablemos.

A %d blogueros les gusta esto: