1 Reporte de Avances 24 Junio 2011 Luis Villaseñor Pineda / INAOE
2 Proyectos semilla Gestión de documentos digitalizados Imagen mediática de personajes públicos Cruce entre el GR1 y la línea de investigación 4
3 ¿Cuál es la intención? Transformar el texto en datos para permitir su análisis e impactar en la toma de decisiones. La Web es cada vez más rica en información pero en texto no estructurado Una gran parte de la información de una compañía está en forma textual
4 ¿Importancia? Anderson Analytics - proveedor de análisis de texto y de contenido relacionado con el comportamiento del consumidor. Anderson Analytics Attensity - grupo de soluciones de minería de textos para diversas industrias. Attensity Autonomy - software de minería de textos, clustering y categorización. Autonomy Clarabridge - aplicaciones de minería de textos, categorización para clientes, servicios de salud y analítica investigativa. Clarabridge Clearforest - software de minería de texto para extraer el significado de varias formas de información textual. Clearforest Cortex Intelligence - proveedor de análisis de contenido de Web. Cortex Intelligence Crossminder - empresa de minería de textos con búsqueda multilingüe y aproximación semántica. Crossminder IBM Intelligent Miner for Text - software de minería de textos comercial. IBM Intelligent Miner for Text Inxight - proveedor de tecnologías de análisis de texto, búsqueda y visualization. Inxight Island Data - Real-time market intelligence from unstructured customer feedback. Island Data Nstein Technologies - provider of text analytics, and asset/web content management technologies (media, e-publishing, online publishing). Nstein Technologies Pimiento un framework para aplicaciones de minería de textos en Java. Pimiento PolyAnalyst - software de minería de textos. PolyAnalyst SAS Enterprise Miner - software de minería de textos. SAS Enterprise Miner SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con otros de SPSS. SPSS TALTAC2[1] - TalTac2 es un software para el anàlisis de datos textuales. Tiene como objetivo describir e interpretar el contenido y / o algunas de sus propiedades. TALTAC2[1] TEMIS - TEMIS es un productor de software en el área de inteligencia de información. TEMIS TextAnalyst - software de minería comercial. TextAnalyst Textalyser - herramienta de análisis en línea para ver las estadísticas de textos. Textalyser Topicalizer - una herramienta en línea para generar estadístias de páginas web y otros textos. Topicalizer The "Ultimate Research Assistant" - una herramienta para gerencia de conocimiento que usa una combinación de búsqueda tradicional y técnicas de minería para facilitar la búsqueda en línea de temas complejos. The "Ultimate Research Assistant"
5 Una necesidad real
6 Un mercado estimado en $425 millones de dólares (Seth Grimes, Alta Plana)
7 Grandes compañías
8 Orientadas al idioma
9 ¿Cómo hacerlo? A través de la Minería de textos ó Análisis de Textos Áreas involucradas: ○ recuperación de información, minería de datos, aprendizaje automático, estadística ○ clasificación de textos (temática y no-temática), lingüística computacional, análisis léxico, anotación/etiquetado.
10 Proyectos semilla Son una oportunidad para desarrollar ciencia aplicada bajo un contexto concreto con uso inmediato Breve justificación de su importancia y potencialidad Breve mención del área donde se encuentran ○ Minería – qué consiste Importancia económica ○ Ejemplos de compañías/productos ○ Dependencia al idioma – nicho sin igual
11 Proyectos semilla Son una oportunidad para desarrollar ciencia aplicada bajo un contexto concreto con uso inmediato Marcos de aplicación claros / evaluación La idea es el desarrollo de métodos y técnicas propios para abordar este tipo de problemas
12 Gestión de documentos digitalizados Los procesos administrativos necesitan un apoyo físico (p. ej. acuerdo firmados, contratos, etc.), su gestión es difícil. Una posible solución es la digitalización de los documentos aplicando un proceso de OCR. Documentos en Papel Imágenes Reconocimiento Óptico de Caracteres Texto ASCII
13 Retos Determinar el alcance de la técnicas actuales de clasificación bajo condiciones con ruido (error introducido por el OCR) Proponer nuevos métodos para situaciones con pocos datos, clases desbalanceadas y clases traslapadas Recuperar una representación lo más fidedigna posible del documento original Participantes ○ Luis Villaseñor/INAOE, Manuel Montes/INAOE, Ofelia Cervantes/UDLAP, Víctor Sosa/CINVESTAV, Gerardo Sierra/IINGEN-UNAM, Edgar Chávez/ U. Michoacana, Juan Carlos Lavariega / ITESM-Monterrey (Externos: Aurelio López /INAOE, Antonio Juárez/INAOE )
14 Retos Determinar el alcance de la técnicas actuales de clasificación bajo condiciones con ruido (error introducido por el OCR) Proponer nuevos métodos para situaciones con pocos datos, clases desbalanceadas y clases traslapadas Recuperar una representación lo más fidedigna posible del documento original Participantes ○ Luis Villaseñor/INAOE, Manuel Montes/INAOE, Ofelia Cervantes/UDLAP, Víctor Sosa/CINVESTAV, Gerardo Sierra/IINGEN-UNAM, Edgar Chávez/ U. Michoacana, Juan Carlos Lavariega / ITESM-Monterrey (Externos: Aurelio López /INAOE, Antonio Juárez/INAOE )
15 Resultados preliminares Datos reales – Grid IT Consultores Corpus de 390 documentos aprox. organizados en 65 clases, fuertemente desbalanceados Experimentos orientados a determinar una representación apropiada
16 Resultados preliminares Representación usando palabra fragmentada (n-gramas, 3 < n
17 Imagen mediática de personajes públicos A partir de la recopilación y análisis automáticos de diferentes fuentes en la Web (p. ej. blogs, foros, periódicos, etc.) sobre un personaje específico en un periodo de tiempo dado se desea determinar las preferencias (aceptación o rechazo) de la imagen de dicho personaje.
18 Social media
19 Retos Determinar el esquema de análisis por periodo temporal Segmentación automática de textos por tópicos Clasificar automáticamente textos para determinar la inclinación de la opinión respecto a un personaje en específico Participantes ○ Luis Villaseñor/INAOE, David Pinto/BUAP, Iván López/CINVESTAV, Edgar Chávez/ U. Michoacana, Manuel Montes y Gómez/INAOE, (externos: Rafael Guzmán/Univ. de Guanajuato, Héctor Jiménez/UAM-Cuajimalpa, José Martín Estrada Analco/BUAP, Rogelio González Velázquez/BUAP, Esaú Villatoro/INAOE, Aurelio López/INAOE, Laritza Hernández/INAOE )
20 Retos Determinar el esquema de análisis por periodo temporal Segmentación automática de textos por tópicos Clasificar automáticamente textos para determinar la inclinación de la opinión respecto a un personaje en específico Participantes ○ Luis Villaseñor/INAOE, David Pinto/BUAP, Iván López/CINVESTAV, Edgar Chávez/ U. Michoacana, Manuel Montes y Gómez/INAOE, (externos: Rafael Guzmán/Univ. de Guanajuato, Héctor Jiménez/UAM-Cuajimalpa, José Martín Estrada Analco/BUAP, Rogelio González Velázquez/BUAP, Esaú Villatoro/INAOE, Aurelio López/INAOE, Laritza Hernández/INAOE )
21 Resultados preliminares Método tradicional no funciona Otras representaciones Apoyo en recursos externos Experimentos orientados a una solución cross-lingue
22 Resultados preliminares Usando recursos en inglés y aplicados al español en un dominio específico InglésEspañol (traducido al inglés) 10662 instancias338 instancias Pesado utilizadoExactitudAtributosExactitudAtributos Promedio de todas las acepciones 72.57677762.13774 Máximo de entre todas las acepciones 72.02664962.42755 Valor de la primera acepción 72.53683059.76776
23 Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje ccc.inaoep.mx/labtl Instituto Nacional de Astrofísica, Óptica y Electrónica