DESCUBRIENDO CONOCIMIENTO EN LAS REDES SOCIALES, CASO EXPERIMENTAL DE MINERÍA DE DATOS EN TWITTER Francisco Jacob Ávila Camacho Martín Verduzco Rodríguez.

1 DESCUBRIENDO CONOCIMIENTO EN LAS REDES SOCIALES, CASO E...
Author: Samuel Juárez Camacho
0 downloads 2 Views

1 DESCUBRIENDO CONOCIMIENTO EN LAS REDES SOCIALES, CASO EXPERIMENTAL DE MINERÍA DE DATOS EN TWITTER Francisco Jacob Ávila Camacho Martín Verduzco Rodríguez Juan Manuel Stein Carrillo Tecnológico de Estudios Superiores de Ecatepec UNIVERSIDAD DA VINCI DOCTORADO EN SISTEMAS COMPUTACIONALES – G2

2 El Microblog y Twitter tweet Uno obtiene Tweets siguiendo a otros

3 Twitter como una fuente de datos  155 Millones de Tweets se publican todos los días  En México(2010)  4 millones de usuarios  95% de los usuarios publica de 0 a 1 mensaje al día  3% publica de 2 a 5 mensajes por día  2% publica 6 o más mensajes al día  56% son hombres y 44% mujeres  Por cada mensaje publicado por un hombre, las mujeres publican 2.5 en promedio Fuente: SMLatam – Evento de Social Media Latinoamericano 2010

4 Relaciones de seguimiento en Twitter Los usuarios y sus tweets forman un red de información creciente Juan Gabriela Estrella Pedro Otras personas

5 Tareas de investigación  Filtrado de Tweets basado en los intereses del usuario  Retener los tweets marcados con interés para el usuario  Creación de Comunidades  Crear subgrupos de gente con intereses similares  Clasificación de Tweets  Clasificar los tweets en categorías comunes

6 Filtrado de Tweets basado en los intereses del usuario Interesante No Interesante Eliminarlo de automáticamente? Retener los tweets interesantes y filtrar o liminar los demás

7 Filtrado de Tweets basado en los intereses del usuario  Este trabajo propone un método basado en un umbral para filtrar los tweets sin interés.  El interés de un tweet esta dado por un valor numérico  Si este valor es mayor a un umbral dado, los tweets serán retenidos, de lo contrario serán filtrados antes de mostrarlos al usuario.  El indicador de interés es calculado vía la probabilidad marginal de un tweet, dado un modelo que representa los intereses del usuario.

8 Filtrado de Tweets basado en los intereses del usuario  El modelo será estimado utilizando el modelo LDA – Latent Dirichlet Allocation  Es un modelo probabilístico de tópicos que representan una colección de documentos como una distribución de tópicos.  Los intereses delas personas son los tópicos en el método LDA  El interés de un usuario se representa por una distribución de tópicos de interés

9 Filtrado de Tweets basado en los intereses del usuario Retener los tweets interesantes y filtrar o eliminar los demás No interés! Eliminar! De Interés! Retener! 1. Recolectar Tweets de la gene que ella sigue 2. Estimar el modelo LDA como su modelo de interés 3. Calcular la probabilidad marginal de que un nuevo tweet sea filtrado > s ? no yes

10 Proceso de filtrado de Tweets 1. Obtener un número de tweets de las personas que actualmente sigue el usuario 2. Tratar estos tweets como documentos para estimar el modelo LDA como el modelo de interés del usuario 3. Dado un flujo nuevo de tweets de entrada, para cada tweet calcular la probabilidad marginal bajo el modelo estimado de interés y comparar con el umbral de filtrado para decidir si el tweet debe ser retenido o no. 4. Presentar los tweets retenidos en el paso anterior, los cuales son considerados como interesantes al satisfacer las necesidades de información del usuario

11 Creación de Comunidades  Dado un número de personas que el usuario sigue  Crear subgrupos de personas similares unas con otras  La medida de similitud entre personas significa la similitud de intereses entre personas  Una persona en particular puede o no estar involucrada en uno o vario subgrupos Grupo "machine learning"Temas gourmet Grupo“Expansión de Negocios"

12 Creación de Comunidades  Utilizando las relaciones de seguimiento en Twitter podemos construir una red de documentos  Después de que se construye el modelo de tópicos, al comparar la distribución de tópicos de los usuarios, podemos encontrar subgrupos que comparten los mismos intereses Relaciones de “seguimiento”

13 Creación de Comunidades Definición Formal: : Distribución de tópico de interés para un usuario de Twitter Grupo "machine learning"Temas gourmet Grupo“Expansión de Negocios"

14 Creación de Comunidades El subgrupo se define como un conjunto de nodos en la red de información experimental, donde el número de nodos es mayor a un umbral dado. La similitud entre pares de nodos es mayor a otro umbral dado. A lo mucho la distancia entre dos nodos los cuales son similares en intereses de dos usuarios, se define como una similitud coseno de las dos distribuciones de tópicos respectivas. Modelado usando: iTopicModel

15 Clasificación de Tweets  El objetivo es dividir diferentes tweets en categorías dependiendo del contenido de cada tweet.  Utilizando y modificando el algoritmo K-Means se especifican manualmente algunos tópicos de prueba como: discusiones técnicas, noticias, eventos, deportes, etc.  Estas categorías se utilizan como clasificación inicial  Los tweets serán clasificados en base ala cercanía con el indicador actual de una manera iterativa

16 Clasificación de Tweets Cantidades de tweets enviadas a categorías específicas para leer Food Tweets Food Tweets Media Tweets Media Tweets Technical Tweets Technical Tweets Conversation Tweets Conversation Tweets News Tweets News Tweets

17 Clasificación de Tweets medios noticias Temas técnicos conversación Algoritmo K-Means Modificado: - Cada tweet se representa con un vector de conteo de palabras dado un vocabulario V que guarda cada palabra. - c1i y c2i son los conteos de las palabras en p y q respectivamente, donde i es la posición en la que se encuentra la palabra en V comida La distancia entre dos tweets p y q es la distancia Euclidiana:

18 Proceso de Clasificación de Tweets 1. Transformar cada tweet para ser clasificado dentro de los vectores de conteo de palabras sobre el vocabulario 2. Establecer el indicador inicial creando manualmente tweets de prueba 3. Iterar sobre cada tweet para determinar la cercanía con cada indicador comparando la distancia ente él y el indicador inicial y así clasificarlo en la categoría correspondiente 4. Recalcular indicadores de acuerdo con el indicador promedio de cada categoría 5. Repetir los pasos (3) y (4) hasta alcanzar el número máximo de iteraciones

19 Experimentos Filtrado de Tweets TweetScoreStatus reading #OSCON Data proposals. have coined a new acronym. YAWNS - Yet Another Wanking NoSQL Solution. -90.669retained Your infographic has one design flaw - I impulsively want to hover over the points in the scatterplot and see the couples. -83.292retained You are working on exciting stuff that will revolutionize fashion Fashionistas and entrepreneurs stay tuned -109.36filtered Pretty interesting RT @OpenHQR: San Francisco Rainwater: Radiation 181 Times Above US Drinking Water Standard. -146.24filtered #followfriday @aghose NYU Stern professor, new Tweep, and one of the winners of the WWW2011 best paper award. -94.841retained Se usaron 20 Mil Tweets para estimar el modelo de interés. Umbral de filtrado = -100

20 Experimentos Coreación de Comunidades Community 1Community 2Community 3Community 4 # of Users48679142 Min Similarity0.760.820.900.71 Label Game, EntertainTravel, EventsInternet, WebResearch, Study Top Words game, games, startup, microtask, samplereality, gameloft, cpuo, ps3, love, crowd, play, flash, ea, starcraft2, ibogost, xbox, mobile, amazing, tv, free, experience, video, zynga tonight, pm, airport, waiting, honolulu, hotel, international, boston, checked, car, center, blog, hawaii, world, interesting, article, photos, event, libya, story, egypt, piece, east, missing, chinese http, mobile, live, space, tech, elearning, action, marketing, twitter, facebook, tweet, fb, follow, page, users, link, google, book, free, ipad, email, read, search, phone, books, code, site, apps digital, library, university, research, culture, job, pdf, humanities, projects, conference, public, tech, studies, harvard, talk, year, congrats, listening, talking, times, paper, dr, interesting 2 millones de tweets de 400 usuarios. k=50, α=50, β ij =0.01, Φ=0.65, μ=30

21 Experimentos Clasificación de Tweets Tweets CategoryTweets within Category Social, Media, News Top ranked words: social, twitter, media, interesting, people, digital, nytimes, post, information, looking, online, public Back online after a fantastic weekend with @PeregrineKiwi ! Looking fwds to partying again in a month, next time in LA :D If you're at #asist2010 today, check out my colleague Dave' talk on social media emergency #KM during the Haiti earthquake Tried to reduce how many people I follow on Twitter and ended up adding 2 more #informationoverloadfail He also said that Zuckerberg rarely posts anything on Facebook Event, Celebration, Activity, Award Top ranked words: congrats, watching, photo, show, family, nice, afternoon, birthday, life, fun RT @nmtechcouncil: Reminder: #OpenCoffee this Thursday AM at the Santa Fe Business Incubator -hope to see you there! Wow! Congratulations @BAVC for receiving the 2010 MacArthur Award for Creative & Effective Institutions thanks for sharing and again congrats! | @fstutzman dissertation - Networked Information Behavior in Life Transition @janedavis @veruka2 Ha! That sounds like quite an evening. Food, Drink, Gourmet Top ranked words: coffee, food, birthday, beverage, delicious, drink, amazing, favourite, home, beer Intelligentsia Goes Back to Basics for Brewed Coffee - “If you’re an Intelligentsia regular and drink brewed... Ending a long day with warm cookies and cold beer. http://tumblr.com/xf6b8cg9m @barbermatt wheeze the juice! Macaroni & Cheese with Blue Cheese, Figs, and Rosemary: Sure to comfort the winter blues. ~3.4Mil tweets utilizados para clasificación 3 Categorías de interes principales

22 Referencias  [1] Twitter, http://twitter.comhttp://twitter.com  [2] Facebook, http://www.facebook.comhttp://www.facebook.com  [3] MySpace, http://www.myspace.comhttp://www.myspace.com  [4] Information Filtering System, http://en.wikipedia.org/wiki/Information_filtering_system http://en.wikipedia.org/wiki/Information_filtering_system  [5] Blei, D.M., Ng,A.Y., & Jordan, M.I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993, 1022.  [6] Yizhou Sun, Jiawei Han, Jing Gao, and Yintao Yu, iTopicModel: Information Network-Integrated Topic Modeling, Proc. 2009 International Conference on Data Mining (ICDM’09), Miami, FL. Dec. 2009

23 Referencias  [7] Bit.ly, http://www.bit.lyhttp://www.bit.ly  [8] Beta Function, http://en.wikipedia.org/wiki/Beta_Functionhttp://en.wikipedia.org/wiki/Beta_Function  [9] K-Means, http://en.wikipedia.org/wiki/K-means_clusteringhttp://en.wikipedia.org/wiki/K-means_clustering  [10] Wagstaff, K., Cardie C. & Rogers S. (2001). Constrained k-means clustering with background knowledge. ICML 2001  [11] Kindermann, R. (2001) Markov random fields and their applications.  [12] Cosine Similarity, http://en.wikipedia.org/wiki/Cosine_similarityhttp://en.wikipedia.org/wiki/Cosine_similarity  [13] Steinbach, M., Karypis, G. Kumar, V. (2000). A comparison of Document Clustering Techniques, KDD  [14] Hoffmann, T. (1999). Probabilistic latent semantic analysis. In proceedings of UAI, pp. 289-296  [15] Wang, R., Jin, R. (2010). An empirical study on the relationships between the followers’ number and influence of microblogging. 2010 International Confenrence