1 [email protected] Extracción de Conocimiento y Web Semántica Stefan Schulz Universidad Médica de Graz (Austria) 10 de mayo de 2016 Corporación Universitaria Comfacauca Popayán – Colombia
2 Temas abordados Contexto: representación del conocimiento en ciencias de la computación Cuales son los tipos de conocimiento que podemos distinguir Cuales modelos y estándares de Semantic Web son adecuados para representar que tipos de conocimiento? Ejemplos para adquisición de conocimiento 2
3 Arquitectura tecnológica de la Web Semántica https://es.wikipedia.org/wiki/Web_semántica 3
4 Universales Indivíduos Símbolos denotación instanciación denotación Mapa del conocimiento "perro", "dog" "canino", "canis", "dog" "Marley" "Marley" C. K. Ogden and I. A. Richards (1923) The Meaning of Meaning 4
5 Universales Indivíduos Símbolos ❶ ❺ ❹❷ ❸ ❻ Marley vive en Flórida Marley es un perro "dog" es un sustantivo "perro" y "canino" son sinónimos perros son vertebrados perros son posibles transmisores de rabia denotación instanciación denotación Mapa del conocimiento 5
6 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones 6
7 7
8 Representación tripletes RDF (n3) :Florida rdf:type :estado :Marley rdf:type :perro :Marley :vivir :Florida Sintaxis TURTLE : https://www.w3.org/TR/turtle/ 8
9 ❷ Extracción de información Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009 Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts ADM{419620001 110714004 65124004 113279002 NEG{116223007 91637004 252275004 111583006} 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] } 49401003 76197007 14016003 420510009 103213002 53945006 35105006 9
10 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones 10
11 11
12 Representación SKOS / otros namespaces :ex:Dog rdf:type skos:Concept :ex:Dog skos:prefLabel "perro"@es; :ex:Dog skos:prefLabel "dog"@en; :ex:Dog skos:altLabel "dog"@es; :ex:Animal rdf:type skos:Concept :ex:Animal skos:broader ex:Dog wr:doglemon:sensewr:dog-English-Noun-1 wr:doglemon:sensewr:dog-English-Verb-1 wr:dog-English-Noun-1 wt:hasPoSwt:Noun x:animals rdf:type skos:Concept ex:animals rdf:type skos:Concept skos:prefLabel "animals"@en; Sintaxis TURTLE : https://www.w3.org/TR/turtle/ 12
13 ❸ Conocimiento linguístico: etiquetado gramatical http://cogcomp.cs.illinois.edu/ 13
14 ❹ Conocimiento linguístico: Extracción de definición de acrónimos Patrones para extraer definiciones de un corpus Sánchez D. & Isern D. Automatic extraction of acronym definitions from the Web. Appl Intell (2011) 34: 311–327 PadrónEjemplo Acrónimo (Definición)AVC (Accidente vascular cerebral) Definición (Acrónimo)Accidente vascular cerebral (AVC) Acrónimo – DefiniciónAVC – Accidente vascular cerebral– Definición – AcrónimoAccidente vascular cerebral–ACV– A < V < C 14
15 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones 15
16 Conocimiento ontológico: Lo que es verdad universalmente 16
17 Representación OWL Perro subclassOf Vertebrado Vertebrate subclassOf Animal Vertebra subclassOf Hueso Vertebrado equivalentTo Animal and has-part some Hueso ex:animals rdf:type skos:Concept skos:prefLabel "animals"@en; Sintaxis OWL Manchester: https://www.w3.org/TR/owl2-manchester-syntax/ no hay perro que no tiene huesos inferencia calculable 17
18 18
19 19
20 ❺ Extracción de relaciones taxonómicas Patrones lexico-semánticos Hearst: Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics, pages 539--545, Nantes, France, July 1992. PatrónEjemplo NP such as {NP}* (and|or) NP"AGE-binding proteins, such as GAL-3" NP {NP}* (and|or) other NP"fractures or other Injuries" NP including {NP}* (or|and) NP "mental illnesses including schizophrenia" AGE-binding protein GAL-1 subclass-of injury fracture subclass-of mental illness schizophrenia subclass-of 20
21 ❺ Extracción de otras relaciones Kreuzthaler M, Schulz S. Metonymies in medical terminologies. A SNOMED CT case study. AMIA Annu Symp Proc. 2012;2012:463-46. Validación de axiomas SNOMED CT por minería Web Expresión de búsqueda "Gastritis is an inflammation of" ResultadoFrecuencia "stomach lining"44 "lining of the stomach"22 "lining of your stomach"3 "lining of stomach"1 21
22 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones 22
23 Conocimiento contingente: Lo típico, probable, posible 23
24 ❻ Extracción de conocimiento contingente (no ontológico) de bancos de dados Fuente: MEDLINE metadatos más de 23 M de registros bibliográficos descriptores MeSH atribuídos manualmente Destino: tripletas (Sujeto, Predicado, Objeto) representando afirmacioned plausibles en el domínio biomédico, Exemplos: SujetoPredicadoObjeto Tobaccocausescancer Pyelonephritiscomplicated-byUrosepsis AspirintreatsPain 24
25 BioTxtM2014 – Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing Stefan Schulz, Catalina Martínez Costa, Markus Kreuzthaler, Jose A. Miñarro-Giménez, Ulrich Andersen, Anders B. Jensen, Bente Maegaard califica el concepto fuente, por ejemplo: DT = "drug therapy" PC = "prevention and control" CO = "complication" Análisis de co-ocurrencias 25
26 Ejemplo: la puntuación más alta del calificador " TU" ("uso terapéutico") en un descriptor MeSH del tipo "Substance" permite inducir el predicado "treats" con "Disease" como objeto ; una alta pontuación del calificador "PC" sugiere el predicado "prevents" Subject Object Extracción de predicados según el análisis de MeSH "subheadings" 26
27 Resultados: Pruebas para los predicados “treats” y “prevents”. Resultados prometedores, pero requerendo más refinamiento. Resultados Stefan Schulz et al. Semantic Relation Discovery by using Co-occurrence Information. Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing, LREC 2014, Reykjavik. Perspectivas: utilizar aprendizaje automático usando patrones. Publicar como "Linked Data". Posibles casos de uso: sistemas de búsqueda de respuestas, expansión de búsqueda, apoyo a la toma decisiones, base de dados para aplicaciones PLN 27
28 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones 28
29 Conocimiento ontológico: Lo que es verdad universalmente Conocimiento contingente: Lo típico, probable, posible Conocimiento linguístico: Afirmaciones sobre la composición y el significado de signos linguísticos Conocimiento de hecho: Afirmaciones sobre entidades concretas y sus relaciones CONOCIMIENTO SOSTENIBLE CONOCIMIENTO DINAMICO 29
30 Universales Indivíduos Símbolos denotación instanciación denotación Extracción de Conocimiento de fuentes estructuradas y no-estructuradas Big data minimiza el problema de recall. Critérios pueden ser más rígidos Patrones y algoritmos de extracción de conocimiento de texto libre relativamente simples y sin novedad Experiencia del IBM Watson mostró el valor de paralelizar abordajes diferentes Prometedor: construción de conocimiento combinando extracción en big data con crowdsourcing Discusión / Perspectivas 30
31 [email protected] Preguntas ?