Francisco Herrera Grupo de Investigación “Soft Computing y Sistemas de Información Inteligentes” Dpto. Ciencias de la Computación e I.A. Universidad de.

1 Francisco Herrera Grupo de Investigación “Soft Computin...
Author: Silvia Piñeiro Medina
0 downloads 0 Views

1 Francisco Herrera Grupo de Investigación “Soft Computing y Sistemas de Información Inteligentes” Dpto. Ciencias de la Computación e I.A. Universidad de Granada [email protected] http://sci2s.ugr.es Una introducción al Big Data y su impacto en la sociedad El valor de la informaci ó n: el reto del “ Big Data ”

2 Nuestro mundo gira en torno a los datos

3 Exabytes: 10 18 bytes. La explosión de los datos

4 Zettabyes: 10 21 bytes.

5 El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de Extraer el valor de los datos Convertir datos en conocimiento ¿Qué hacemos con estos datos?

6  ¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos  El poder de los datos y su impacto en la sociedad El valor de la informaci ó n: el reto del “ Big Data ”

7  ¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos  El poder de los datos y su impacto en la sociedad El valor de la informaci ó n: el reto del “ Big Data ”

8 Problema: Escalabilidad de grandes cantidades de datos Ejemplo: – Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días ¿Por qué Big Data? ¿Cómo podemos procesar 1000 TB (1 PB) ó 10000 TB? Propuesta de Google 2004: Paradigma MapReduce (aproximación más popular a big data) Terabyte: 10 12 bytes Solución  Divide-Y-Vencerás – Exploración en un clúster de 1000 nodos = 33 minutos Fragmentación Datos Procesamiento Paralelo Fusión de Modelos

9 Big Data en 3 V’s Big Data Volumen Velocidad Variedad Doug Laney, Gartner Feb. 6, 2001 3-D Data Management: Controlling Data Volume, Velocity and Variety. Big Data

10 Some Make it 4V’s: Veracity ¿Qué es Big Data? 3 V’s de Big Data “Big Data” son datos cuyo volumen, diversidad y complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento oculto en ellos...

11 11 Big Data 2001 3V’s Gartner Doug Laney 2004 MapReduce Google Jeffrey Dean 2008 Hadoop Yahoo! Doug Cutting 2010 Spark U Berckeley Apache Spark Feb. 2014 Matei Zaharia 2009-2013 Flink TU Berlin Flink Apache (Dec. 2014) Volker Markl 2010-2015: Big Data Analytics: Mahout, MLLib, … Hadoop Ecosystem Aplicaciones Nuevas Tecnologías Big Data: Tecnología y Cronología 2001-2010 2010-2015

12 Clustering Recommendation Systems Classification Association Potentiales escenarios Real Time Analytics/ Big Data Streams Social Media Mining Social Big Data Big Data Analytics

13 Ámbito del conocimiento que engloba las habilidades asociadas al análisis inteligente de datos, incluyendo Big Data Ciencia de Datos Científico de datos

14  ¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos  El poder de los datos y su impacto en la sociedad El valor de la informaci ó n: el reto del “ Big Data ”

15 Greg Linde (1997) propuso un sistema de recomendaciones, filtrado colaborativo “artículo a artículo” Dilema: ¿Lo que los clics decían o lo que opinaban los críticos? Críticos y editores literarios La voz de Amazon (1995) El poder de los datos Análisis de transacciones Amazon: Sistema de recomendación Los datos incrementaron tremendamente las ventas Ahora más de 1/3 de las ventas son gracias a las recomendaciones Fuente: Big Data. La revolución de los datos masivos. Pag. 69. The power of habit, Charles Duhigg. Feb. 2012

16 Netflix: Sistema de recomendación Para Netflix, compañía de alquiler de películas online, las tres cuartas partes de los pedidos nuevos surgen de las recomendaciones. Netflix y Amazon son dos empresas cuyo plan de negocio está basada en big data y sistemas de recomendación

17 Fuente: Big Data. La revolución de los datos masivos. Pag. 77 v Descubrimiento: Cremas sin perfume al tercer mes. Dos docenas de productos Predicción de fecha parto Modelo de predicción de clientes embarazadas por medio de sus patrones de compra. El poder de los datos Análisis de transacciones Acción: Envío de cupones para cada fase del embarazo Disculpas Empresa. Disculpas del padre, confirmación del embarazo de la hija Enfado de un padre: Su Hija recibe publicidad de productos para embarazadas

18 Target (cadena de grandes almacenes) que utiliza el análisis de transacciones y asociaciones. Fuente: Big Data. La revolución de los datos masivos. Pag. 77. Unos días después el director llamó al padre para disculparse. Respuesta conciliadora del padre: “He estado hablando con mi hija –dijo el padre– Resulta que en mi casa han tenido lugar ciertas actividades de las que yo no estaba del todo informado. Mi hija sale de cuentas en agosto. Soy yo el que les debe una disculpa”. Análisis de transacciones: Un chivo expiatorio El poder de los datos

19 Discovering Health Topics in Social Media Using Topic Models Michael J. Paul, Mark Dredze, Johns Hopkins University, Plos One 9(8) e103408, 2014 doi:10.1371/journal.pone.0103408 Analizando Twitter para medir la Salud Pública Se obtienen 13 grupos coherentes de mensajes correlacionados - Gripe estacional (r= 0.689) y alergias (r = 0.810) - Ejercicio y obesidad relacionados con datos geográficos,.. You Are What You Tweet Un sistema de filtrado de datos de Twitter puede inferir aspectos de salud analizando 144M de tuits (2011-2013)

20 http://elpais.com/elpais/2015/01/29/ciencia/1422520042_066660.html http://www.sciencemag.org/content/347/6221/536 Banca: Identificación de personas con las compras de tarjetas de crédito

21 Identificación por el número de compras Identificación por el género Identificación por el poder adquisitivo Banca: Identificación de personas con las compras de tarjetas de crédito

22 Salud Redes sociales como fuente de datos Industria, comercio, banca, … Ocio y cultural (Ej. Recomendaciones) Política Bien social (Social good) Impacto en la sociedad

23 http://www.elmundo.es/elmundo/2013/09/03/navegante/1378243782.html Big Data: Gran Impacto en la Sociedad y presencia en los medios de comunicación

24 http://economia.elpais.com/economia/2013/09/27/actualidad/1380 283725_938376.html La demanda de profesionales formados en Ciencia de Datos y Big Data es enorme. Se estima que la conversión de datos en información útil generó un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos. España necesitaba para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data. Impacto Económico http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-data-hasta- 2015/?goback=.gde_4377072_member_5811011886832984067#!

25 http://issuu.com/secacult_uja/docs/libro_francisco_herrera.indd 2 Lecturas rápidas: Sobre la tecnología y sobre el poder de los datos Capítulo 3. El valor de la informaci ó n: el reto del “ Big Data ”

26 Nube de datos (Noviembre 2014) Comentarios Finales Discernir información relevante, sintetizarla y extraer conocimiento de ella es, cada vez, un aspecto más crítico en la sociedad en que vivimos

27 ¡Gracias!