1 Aplicaciones de Big Data en R V Jornadas de Usuarios de R Zaragoza, diciembre 2013
2 Índice presentación Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? Principios: herramientas básicas y cómo trabajar en Big Data ¿Qué es Map-Reduce? Map-Reduce programando en R Map-Reduce usando paquetes de R Map-Reduce usando SQL desde R © 2013 Synergic Partners – Proprietary and Confidential
3 Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (I) ¿Qué es? Big Data != muchos datos Hadoop – Pig, jaql – Hive – HBase – … MongoDB Cassandra … © 2013 Synergic Partners – Proprietary and Confidential
4 Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (II) Usamos datos tabulados. (En caso contrario, habría otras soluciones que no explicamos aquí.) R es: – la solución analítica – la consola de control de (casi) todo el sistema © 2013 Synergic Partners – Proprietary and Confidential
5 Principios: herramientas básicas y cómo trabajar en Big Data (I) © 2013 Synergic Partners – Proprietary and Confidential
6 Principios: herramientas básicas y cómo trabajar en Big Data (II) © 2013 Synergic Partners – Proprietary and Confidential
7 Principios: herramientas básicas y cómo trabajar en Big Data (III) © 2013 Synergic Partners – Proprietary and Confidential
8 ¿Qué es Map-Reduce? (I) © 2013 Synergic Partners – Proprietary and Confidential
9 ¿Qué es Map-Reduce? (II) Tanto para clasificación como para regresión: Algunos algoritmos se pueden paralelizar de manera centralizada. Por ejemplo: Regresión lineal, regresión logística, k-means Algunos algoritmos se pueden paralelizar “as is” y combinar todos los modelos en un único modelo. Por ejemplo: Random Forests Todos los algoritmos se pueden paralelizar “as is” y utilizar una metaheurística (por ejemplo, un voto ponderado) para obtener una clasificación conjunta. © 2013 Synergic Partners – Proprietary and Confidential
10 ¿Qué es Map-Reduce? (III) En R Podemos programar Map-Reduce Podemos usar un paquete que use Map- Reduce Podemos controlar desde R programas como Hive que usan Map-Reduce © 2013 Synergic Partners – Proprietary and Confidential
11 Map-Reduce programando en R (I)
12
13
14 © 2013 Synergic Partners – Proprietary and Confidential
15 Map-Reduce programando en R (II)
16
17 © 2013 Synergic Partners – Proprietary and Confidential
18 Map-Reduce programando en R (III)
19 Map-Reduce usando paquetes de R (I)
20
21 Map-Reduce usando paquetes de R (II)
22
23
24
25 Map-Reduce usando SQL desde R (I)
26 Map-Reduce usando SQL desde R (II)
27 Map-Reduce usando SQL desde R (III)
28 © 2013 Synergic Partners – Proprietary and Confidential
29 Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential
30 Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential
31 Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential
32 www.synergicpartners.com