Blog

20 paquetes para R que cualquier científico de datos debería conocer

12/08/2014

El lenguaje R se sitúa ¡en el puesto 13! de los lenguajes de programación más populares en el segundo trimestre de 2014 según Redmonk. Este es el listado de los 20 lenguajes más populares:

1 Java / JavaScript

3 PHP

4 Python

5 C#

6 C++ / Ruby

8 CSS

9 C

10 Objective-C

11 Shell

12 Perl

13 R

14 Scala

15 Haskell

16 Matlab

17 Visual Basic

18 CoffeeScript

19 Clojure / Groovy

Esta posición es sorprendente dado que R no es un lenguaje genérico, sino algo específico para tareas puramente estadísticas. La comunidad de usuarios que programan en R ha ido creciendo notablemente en los últimos años y, al ser un software libre, han ido proporcionando librerías que pueden resultar realmente valiosas (casi indispensables). Tanto las consultas en Stackoverflow como las librerías subidas a Github proporcionan el marco idóneo para que el lenguaje R siga en auge.

 

Cuando uno empieza a programar en R puede verse bastante perdido, sobre todo si ha programado en otros lenguajes más directos y mejor estructurados. Esto le pasa especialmente a los informáticos que han programado con lenguajes mucho más claros que R. A pesar de este ligero inconveniente, este lenguaje de programación, que tantos adeptos tiene, proporciona dos ventajas inigualables respecto al resto de lenguajes/softwares estadísticos: la comunidad que lo mantiene y los utilísimos paquetes que publican. Al principio se suele comenzar a programar «a pelo», debido al desconocimiento sobre librerías. Consultas o transformaciones que se hacen de forma simple sobre los datos tienden a realizarse con una buena cantidad de líneas y código poco eficiente computacionalmente. Los siguientes paquetes son algunos de los que considero que todo científico de datos debería conocer al comenzar con su aprendizaje en R.

 

Carga de datos

SQLdf, RODBCRPostgresSQL, RSQLite: Para cargar datos desde una base de datos y poder realizar consultas.

foreign: permite la carga de datos de software externo como SAS o SPSS de forma directa.

 

Manipulación de datos

plyr: Fundamental para agregación de datos y aplicación de funciones por grupos. Este paquete es de los más utilizados y contiene algunas funciones como ddply, daply, dlply, adply, ldply para aplicación de funciones que son indispensables.

lubridate: Si quieres trabajar con fechas no puedes dejar pasar este paquete. Contiene todas las funciones que se pueden aplicar sobre datos en formato fecha y se utilizan de forma sencillísima. Manejar fechas sin este paquete es toda una odisea.

reshape2: La transformación de los datos en un formato adecuado suele llevar mucho tiempo en un proyecto. Este paquete permite realizar algunas trasformaciones de un modo bastante sencillo.

stringr: Las funciones de R básicas sobre cadenas pueden resultar incómodas. Las cadenas de texto serán mucho más fáciles de manejar con este paquete.

 

Visualización

ggplot2: Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones. Hay diferentes libros de gran utilidad para este paquete.

rgl: Gráficos interactivos en 3D. Se pueden representar incluso formas geométricas en 3D.

 

Modelización

caret: Incluye sencillas herramientas para analizar la calidad de los datos, selección de características y construcción de modelos predictivos. Los resultados que proporciona son especialmente completos.

car: Entre otros beneficios permite realizar ANOVA tipo II y tipo III.

randomforest: Este método de machine learning puede ser utilizado para el aprendizaje tanto supervisado como no supervisado. Es bastante popular por su sencillez y buenos resultados.

qcc: Paquete Para el control estadístico de calidad. Ofrece funciones fáciles de utilizar y gráficos muy intuitivos para observar procesos bajo control y sucesos que están fuera de control.

zoo y forecast: Realizan el formateo de datos y creación de modelos de predicción para series temporales.

 

Presentación de resultados

shiny: Muestra los resultados mediante gráficos interactivos que se pueden publicar en cualquier web.

knitr: Permite elaborar informes en formato Markdown (por ejemplo en HTML).

xtable: Para exportar tablas desde dataframes a HTML o Latex en un simple paso.

 

Seguro que alguno se me pasa, pero estos son considerados como fundamentales en general por toda la comunidad de R. Espero que sean de utilidad. Si utilizáis alguno más incluidlo en comentarios.

 

También te puede gustar…

Caso de éxito: Fronda

Caso de éxito: Fronda

Fronda, es una cadena de centros de jardinería que cuenta con una tienda online que opera por toda España con la que hemos colaborado.

ASPgems icon
C/ Sextante, 9
28023 Madrid,
España

Hablemos.

A %d blogueros les gusta esto: