1 Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho [email protected] [email protected]
2 Día 1 Introducción a la ciencia social computacional Los datos como artefactos digitales de la vida social y política Interpretación y relevancia del contexto Los desafíos del muestreo y la representatividad Ciencia de datos y ciencias sociales Obtención de datos estructurados Consideraciones teóricas Fuentes e Interfaces de programación de aplicaciones (Apis) NodeXL - Excel add-ons (interfaces desde MS Office) y Google Docs TAGS
3 1.1. Los datos como artefactos digitales de la vida social y política
4 Rastro digital https://myshadow.org Evidencia de la actividad humana que es indexada y almacenada digitalmente (Howison, Wiggins, & Crowston, 2011)
5 Aproximaciones internet-mediated research Computational social science - Lazer Digital methods – Richard Rogers DMI – UvA cyberinfrastructure and eScience
6 Computational social science “a computational social science is emerging that leverages the capacity to collect and analyze data with an unprecedented breadth and depth and scale. (...) terabytes of data describing minute-by-minute interactions and locations of entire populations of individuals.” Lazer, et al. - Computational Social Science 2009 “Computational social science is the integrated, interdisciplinary pursuit of social inquiry with emphasis on information processing and through the medium of advanced computation” Cioffi-Revilla 2010
7 Digital methods “research which follows the medium, captures its dynamics, and makes grounded claims about cultural and societal change.” Richard Rogers, The End of the Virtual 2010 Internet como objeto de estudio vs. fuente de datos que informa sobre procesos sociales que hasta ahora era imposible rastrear
8 Giro computacional en las ciencias sociales Tercera ola de las ciencias sociales digitales? Herramientas -> Nuevo paradigma 1.Analísis literario masivo basado en corpus de texto (Moretti 2000) 2.Métodos digitales nativos – diagnóstico de patrones de cambio social a partir del rastro digital en internet (Rogers 2009) 3.Datos emergentes y masivos de interacciones Nueas perspectivas cualitativas del comportamiento humano Acceso y privacidad Necesidad de desarrollar un paradigma
9 Por qué? "Because It's There" George Mallory La infraestructura técnica y de comunicaciones Capacidad para el análisis e intercambio masivo de datos Los datos como commodities valiosos Cambio en la relación entre evidencia-diseño-preguntas
10 Datos Una definición - “A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing Datos como objetos de la ciencia Qué datos se producen? Cómo se capturan? Cómo se organizan para reutilizarlos?
11 Datos como evidencia Datos como “supuestas pruebas” (Buckland, 1991; Edwards, Jackson, Bowker & Knobel, 2007) “Buenos” datos Lo que para unos es ruido, para otros es señal La selección de los datos depende de las preguntas (Scheiner, 2004). El que un conjunto de observaciones o registros pueda considerarse como datos depende del contexto!
12 Fuentes de datos Observaciones propias Encuestas Entrevistas Estudios de campo Modelos del comportamiento humano Experimentos en laboratorio o campo Medios Datos recogidos por otros Indicadores económicos Datos demográficos de censos de población Registros del gobierno o las empresas
13 Evidencia tradicionalNow possible Actitudes y opinionesMiles de encuestadosMillones de opinions políticas en medios sociales (1Billion tweets/week) EjercicioPregunta “Cuántas veces hiciste ejercicio la última semana? 500K personas con m´viles que usan pedómetros y acelerómetros Contacto socialPregunta “Podrías por favor listar tus cinco mejores amigos?” Registro continuo de llamadas telefónicas, email, mensajes de texto, interacciones en redes sociales, agendas electrónicas Desarrollo económicoEstadísticas gubernamentales Imágenes satelitales de iluminación nocturna, redes de carreteras, …
14 Huellas digitales en los medios sociales Contenidos Social signal / bookmarking Comentarios Reseñas de productos y experiencias Mundos virtuales Comportamiento en juegos Crowd sourcing
15 Huellas digitales Artefactos de navegación online Clicks Búsquedas (Google - 1 petabyte/72 minutos) Burocracia (procesos, transparencia, reutilización) e-government open government Academia Replicabilidad Data-sharing
16 Retos en un mundo rico en datos Métodos asistidos por computador: Enfoques exclusivamente cuantitativos o cualitativos son inviables Investigación a gran escala, interdisciplinaria y colaborativa Necesidad de nuevos métodos estadísticos y de ingeniería Mejor teoría para responder a evidencia masiva retos de privacidad ciencia basada en datos
17 El enfoque científico So, tell me what you can do with my data OK- tell me what questions you’re asking Um,.. that kinda depends on what you can do with it Well, that kinda depends on what you’re interested in…
18 Ciencia de datos y ciencias sociales Habilidades de investigación Fundamentos teóricos Conocimiento sobre las cuestiones sustantivas en las ciencias sociales Habilidades de programación Destrezas comunicativas Comprensión de las plataformas – perspectivas técnicas y culturales
19 Ciencia de datos y ciencias sociales Múltiples enfoques de investigación etnográfico estadístico computacional Extracción automatizada de información Análisis de redes sociales (SNA) Análisis Geoespacial Modelos de complejidad Simulación de sistemas sociales
20 1.2.Interpretación y relevancia del contexto
21 La relevancia del contexto Necesidad de comprender la complejidad de una sociedad global interconectada Capacidad de aplicar conocimientos Necesidad de validar y conectar con el conocimiento existente (grounding)
22 Google Flu trends Buscar patrones y epidemias de gripe Cobertura mediática? When Google got flu wrong Declan Butler Nature 2013 http://www.nature.com/news/when- google-got-flu-wrong-1.12413
23 Twitter Flu trends Mensajes de Twitter con una mención de los indicadores de la gripe para rastrear y predecir la aparición y propagación de una epidemia de gripe Predicting Flu Trends using Twitter Data Achrekar et al. 2011 Early Stage Influenza Detection from Twitter Li & Cardie 2013
24 Debates en línea y opinión pública Emotional Reactions and the Pulse of Public Opinion: Measuring the Impact of Political Events on the Sentiment of Online Discussions González Bailón et al. 2010 350,000 discussion groups - Usenet
25 Social media and public opinion barometers Unprompted, natural conversation vs. responses to specific survey questions Adam Sharp, Head of Government, News and Social Innovation - @AdamS@AdamS Topsy analytics https://blog.twitter.com/2012/a-new-barometer-for-the-election
26 Tweets during the UK presidential debate Rising Tides or Rising Stars?: Dynamics of Shared Attention on Twitter during Media Events Lin et al. 2014 Tweeting during presidential debates: Effect on candidate evaluations and debate attitudes Houston et al. 2013 Sentiment in Twitter Events Thelwall & Buckley 2011
27 Predicción electoral usando Twitter 1. Periodo y método de captura 2. Medidas de limpieza de datos: a. Pureza b. Debiasing c. Denoising 3. Método de predicción y su naturaleza: a. El método para inferir las intenciones de voto de los tweets b. La naturaleza de la inferencia c. La naturaleza de la predicción d. Granularidad 4. Evaluación de Rendimiento Meta-analysis - Gayo-Avello - 2012 http://di002.edv.uniovi.es/~dani/PFCblog/index.php?m=06&y=12&entry=entry120627-101828
28
29 t-hoarder Barómetro Social Mari Luz Congosto http://t-hoarder.com/
30 1.3 Los desafíos del muestreo y la representatividad
31 Limitaciones No representatividad Perfil de usuarios de Twitter vs. población general Autoselección de contenidos sobre temas específicos No aleatoreidad Tamaño de la muestra - API Streaming - Spritzer 1% Firehose Replicabilidad Propiedad intelectual Limitaciones en el acceso Usuarios Proveedores
32 Estudio de uso de Twitter en España - Asociación española de la Economía Digial (Adigital) http://nuriagarciacastro.es/perfil-del-usuario-espanol-en-twitter-infografia/
33 1.4. Ciencia de datos y ciencias sociales
34 Análisis de medios sociales Capturar, almacenar y recuperar la opinión pública acerca de eventos y su dinámica temporal Distinguir lo que es importante / Monitorear la atención Redes sociales en línea Información puntual / instantánea Eventos dinámicos – fenómenos virales / cascadas Nowcast - seguimiento de las tendencias en tiempo real Captura de cambios inesperados en la opinión pública "momentum"
35 Economía de la atención - Search engine economy Hit Hyperlink – pagerank Términos de búsqueda Resultados de búsqueda Historial Patrones
36 Social signal – información generada por los usuarios Social bookmarks / Tags Comments / Likes / Shares Retweets Mentions Hashtags +1 votes
37 Minería de datos “La minería de datos es el proceso de identificación de patrones en grandes conjuntos de datos... para descubrir conocimientos útiles previamente desconocidos".(National Centre for Text Mining, 2009). “Knowledge Discovery in Databases un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos” (Maimon & Rokach 2010) “Un conjunto de procesos en los que las herramientas de software se dedican activamente a la extracción automática de información de textos escritos [u otras fuentes]” (Fan et al 2006).