Técnicas para el análisis de datos digitales

1 Técnicas para el análisis de datos digitalesAnálisis de...
Author: Natalia Santos Segura
0 downloads 0 Views

1 Técnicas para el análisis de datos digitalesAnálisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho

2 Día 2 Obtención de datos estructuradosConsideraciones teóricas Fuentes e Interfaces de programación de aplicaciones (APIs) NodeXL - Excel add-ons (interfaces desde MS Office) y Google Docs TAGS Paquetes de R para Twitter Scraping Redes de hipervínculos Procesamiento y estructuración de datos JSON parser Extracción de texto

3 https://github.com/geoffjentry/twitteRPaquetes de R – TwitteR https://github.com/geoffjentry/twitteR registerTwitterOAuth - Registro OAuth para comenzar la sesión de Twitter en R searchTwitter - búsqueda de Twitter basado en una cadena de búsqueda twListToDF - convierte listas de twitteR en data.frames getUser y lookupUsers - información sobre un usuario de Twitter (información básica, lista de amigos, lista de seguidores, y línea de tiempo) getTrends – Tendencias en Twitter

4 Paquetes de R – RoAuth Conexión segura con Twitterverificado usuario de Twitter Obtener una cuenta de Twitter desarrollador https://dev.twitter.com/ Nueva aplicación Nombre Descripción Url del sitio web Acces token Acces token secret

5 library(ROAuth) requestURL <- "https://api. twitterlibrary(ROAuth) requestURL <- "https://api.twitter.com/oauth/request_token" accessURL <- "http://api.twitter.com/oauth/access_token" authURL <- "http://api.twitter.com/oauth/authorize" consumerKey <- "#################" consumerSecret <- "###############" my_oauth <- OAuthFactory$new(consumerKey = consumerKey, consumerSecret = consumerSecret, requestURL = requestURL, accessURL = accessURL, authURL = authURL) my_oauth$handshake(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl")) save(my_oauth, file = "my_oauth.Rdata")

6 Paquetes de R – TwitteR Sintaxis de búsquedaBúsqueda avanzada en Twitter- https://twitter.com/search-advanced searchTwitter(”query”, n= #tweets, lang=“language”, since=NULL, until=NULL, locale=NULL, geocode=NULL, sinceID=NULL, blockOnRateLimit=TRUE, ...) Rtweets(n=25, lang=NULL, since=NULL, ...)

7 Paquetes de R – Rfacebookhttps://github.com/pablobarbera/Rfacebook fbOAuth – Crea un token de OAuth para sesión de Facebook R getUsers – Datos de Facebook del usuario getFriends – permite al usuario capturar información de sus amigos de Facebook

8 Paquetes de R – StreamR https://github.com/pablobarbera/streamRfilterStream – status públicos que coincidan con uno o más predicados de filtro (palabras clave, usuarios, idioma, y ubicación) parseTweets – organiza los resultados en un data.frame filterStream(file.name, track = ”query”, follow = ”user”, locations = “ longitude, latitude pairs” timeout = # seconds, oauth = oauth, verbose = TRUE)

9 Parse – Estructura de las listas de datosSearch API – de vectores de texto a data.frame do.call("rbind",lapply(tweets,as.data.frame)) tweetsdf <- twListToDF(tweets) Stream API – de format JSON a data.frame parseTweets(tweets.json, simplify = FALSE, verbose = TRUE)

10 Scraping para datos de TwitterExtensiones Chrome Scraper Klout Xpaths Klout - //li/ol/li/div/div/div/a/strong/span User - //li/ol/li/div/div/div/a/strong Username - //li/ol/li/div/div/div/a/span/b Date - //div[2]/ol[1]/li/div/div/div/small/a/span No excluir resultados vacios

11 Estadísticas descriptivas básicasFrecuencia Menciones Líneas de tiempo Tendencias Términos comparados Picos Benchmarks Usuarios únicos Menciones vs. palabras clave Retweets