Reporte de Avances 24 Junio 2011 Luis Villaseñor Pineda / INAOE.

1 Reporte de Avances 24 Junio 2011 Luis Villaseñor Pineda...
Author: Celia Caballero Cordero
0 downloads 2 Views

1 Reporte de Avances 24 Junio 2011 Luis Villaseñor Pineda / INAOE

2 Proyectos semilla  Gestión de documentos digitalizados  Imagen mediática de personajes públicos  Cruce entre el GR1 y la línea de investigación 4

3 ¿Cuál es la intención?  Transformar el texto en datos para permitir su análisis e impactar en la toma de decisiones.  La Web es cada vez más rica en información pero en texto no estructurado  Una gran parte de la información de una compañía está en forma textual

4 ¿Importancia?  Anderson Analytics - proveedor de análisis de texto y de contenido relacionado con el comportamiento del consumidor. Anderson Analytics  Attensity - grupo de soluciones de minería de textos para diversas industrias. Attensity  Autonomy - software de minería de textos, clustering y categorización. Autonomy  Clarabridge - aplicaciones de minería de textos, categorización para clientes, servicios de salud y analítica investigativa. Clarabridge  Clearforest - software de minería de texto para extraer el significado de varias formas de información textual. Clearforest  Cortex Intelligence - proveedor de análisis de contenido de Web. Cortex Intelligence  Crossminder - empresa de minería de textos con búsqueda multilingüe y aproximación semántica. Crossminder  IBM Intelligent Miner for Text - software de minería de textos comercial. IBM Intelligent Miner for Text  Inxight - proveedor de tecnologías de análisis de texto, búsqueda y visualization. Inxight  Island Data - Real-time market intelligence from unstructured customer feedback. Island Data  Nstein Technologies - provider of text analytics, and asset/web content management technologies (media, e-publishing, online publishing). Nstein Technologies  Pimiento un framework para aplicaciones de minería de textos en Java. Pimiento  PolyAnalyst - software de minería de textos. PolyAnalyst  SAS Enterprise Miner - software de minería de textos. SAS Enterprise Miner  SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con otros de SPSS. SPSS  TALTAC2[1] - TalTac2 es un software para el anàlisis de datos textuales. Tiene como objetivo describir e interpretar el contenido y / o algunas de sus propiedades. TALTAC2[1]  TEMIS - TEMIS es un productor de software en el área de inteligencia de información. TEMIS  TextAnalyst - software de minería comercial. TextAnalyst  Textalyser - herramienta de análisis en línea para ver las estadísticas de textos. Textalyser  Topicalizer - una herramienta en línea para generar estadístias de páginas web y otros textos. Topicalizer  The "Ultimate Research Assistant" - una herramienta para gerencia de conocimiento que usa una combinación de búsqueda tradicional y técnicas de minería para facilitar la búsqueda en línea de temas complejos. The "Ultimate Research Assistant"

5 Una necesidad real

6 Un mercado estimado en $425 millones de dólares (Seth Grimes, Alta Plana)

7 Grandes compañías

8 Orientadas al idioma

9 ¿Cómo hacerlo?  A través de la Minería de textos ó Análisis de Textos Áreas involucradas: ○ recuperación de información, minería de datos, aprendizaje automático, estadística ○ clasificación de textos (temática y no-temática), lingüística computacional, análisis léxico, anotación/etiquetado.

10 Proyectos semilla  Son una oportunidad para desarrollar ciencia aplicada bajo un contexto concreto con uso inmediato  Breve justificación de su importancia y potencialidad Breve mención del área donde se encuentran ○ Minería – qué consiste Importancia económica ○ Ejemplos de compañías/productos ○ Dependencia al idioma – nicho sin igual

11 Proyectos semilla  Son una oportunidad para desarrollar ciencia aplicada bajo un contexto concreto con uso inmediato Marcos de aplicación claros / evaluación La idea es el desarrollo de métodos y técnicas propios para abordar este tipo de problemas

12 Gestión de documentos digitalizados Los procesos administrativos necesitan un apoyo físico (p. ej. acuerdo firmados, contratos, etc.), su gestión es difícil. Una posible solución es la digitalización de los documentos aplicando un proceso de OCR. Documentos en Papel Imágenes Reconocimiento Óptico de Caracteres Texto ASCII

13 Retos  Determinar el alcance de la técnicas actuales de clasificación bajo condiciones con ruido (error introducido por el OCR)  Proponer nuevos métodos para situaciones con pocos datos, clases desbalanceadas y clases traslapadas  Recuperar una representación lo más fidedigna posible del documento original Participantes ○ Luis Villaseñor/INAOE, Manuel Montes/INAOE, Ofelia Cervantes/UDLAP, Víctor Sosa/CINVESTAV, Gerardo Sierra/IINGEN-UNAM, Edgar Chávez/ U. Michoacana, Juan Carlos Lavariega / ITESM-Monterrey (Externos: Aurelio López /INAOE, Antonio Juárez/INAOE )

14 Retos  Determinar el alcance de la técnicas actuales de clasificación bajo condiciones con ruido (error introducido por el OCR)  Proponer nuevos métodos para situaciones con pocos datos, clases desbalanceadas y clases traslapadas  Recuperar una representación lo más fidedigna posible del documento original Participantes ○ Luis Villaseñor/INAOE, Manuel Montes/INAOE, Ofelia Cervantes/UDLAP, Víctor Sosa/CINVESTAV, Gerardo Sierra/IINGEN-UNAM, Edgar Chávez/ U. Michoacana, Juan Carlos Lavariega / ITESM-Monterrey (Externos: Aurelio López /INAOE, Antonio Juárez/INAOE )

15 Resultados preliminares  Datos reales – Grid IT Consultores Corpus de 390 documentos aprox. organizados en 65 clases, fuertemente desbalanceados  Experimentos orientados a determinar una representación apropiada

16 Resultados preliminares  Representación usando palabra fragmentada (n-gramas, 3 < n

17 Imagen mediática de personajes públicos  A partir de la recopilación y análisis automáticos de diferentes fuentes en la Web (p. ej. blogs, foros, periódicos, etc.) sobre un personaje específico en un periodo de tiempo dado se desea determinar las preferencias (aceptación o rechazo) de la imagen de dicho personaje.

18 Social media

19 Retos  Determinar el esquema de análisis por periodo temporal  Segmentación automática de textos por tópicos  Clasificar automáticamente textos para determinar la inclinación de la opinión respecto a un personaje en específico Participantes ○ Luis Villaseñor/INAOE, David Pinto/BUAP, Iván López/CINVESTAV, Edgar Chávez/ U. Michoacana, Manuel Montes y Gómez/INAOE, (externos: Rafael Guzmán/Univ. de Guanajuato, Héctor Jiménez/UAM-Cuajimalpa, José Martín Estrada Analco/BUAP, Rogelio González Velázquez/BUAP, Esaú Villatoro/INAOE, Aurelio López/INAOE, Laritza Hernández/INAOE )

20 Retos  Determinar el esquema de análisis por periodo temporal  Segmentación automática de textos por tópicos  Clasificar automáticamente textos para determinar la inclinación de la opinión respecto a un personaje en específico Participantes ○ Luis Villaseñor/INAOE, David Pinto/BUAP, Iván López/CINVESTAV, Edgar Chávez/ U. Michoacana, Manuel Montes y Gómez/INAOE, (externos: Rafael Guzmán/Univ. de Guanajuato, Héctor Jiménez/UAM-Cuajimalpa, José Martín Estrada Analco/BUAP, Rogelio González Velázquez/BUAP, Esaú Villatoro/INAOE, Aurelio López/INAOE, Laritza Hernández/INAOE )

21 Resultados preliminares  Método tradicional no funciona Otras representaciones Apoyo en recursos externos  Experimentos orientados a una solución cross-lingue

22 Resultados preliminares  Usando recursos en inglés y aplicados al español en un dominio específico InglésEspañol (traducido al inglés) 10662 instancias338 instancias Pesado utilizadoExactitudAtributosExactitudAtributos Promedio de todas las acepciones 72.57677762.13774 Máximo de entre todas las acepciones 72.02664962.42755 Valor de la primera acepción 72.53683059.76776

23 Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje ccc.inaoep.mx/labtl Instituto Nacional de Astrofísica, Óptica y Electrónica