Procesamiento de Texto Básico Expresiones Regulares.

1 Procesamiento de Texto Básico Expresiones Regulares ...
Author: Jaime Robles Gutiérrez
0 downloads 0 Views

1 Procesamiento de Texto Básico Expresiones Regulares

2 Dan Jurafsky Expresiones Regulares Un lenguaje formal para especificar cadenas de texto. ¿Como puedes localizar alguna de estas? woodchuck woodchuks Woodchuck Woodchucks

3 Dan Jurafsky Expresiones Regulares: Disyunciones Letras dentro de los brackets [] Rangos [A-Z] PatternMatches [wW]oodchuck Woodchuck, woodchuck [1234567890] Cualquier dígito PatternMatches [A-Z] Cualquier mayuscula Drenched Blossoms [a-z] Cualquier minúscula my beans were impatient [0-9] Un dígito Chapter 1: Down the Rabbit Hole

4 Dan Jurafsky Expresiones Regulares: Negation in Disjunction Negaciones [^Ss] Carat significa negación solo cuando es el primer elemento en [] PatternMatches [^A-Z] Ninguna mayuscula Oyfn pripetchik [^Ss] Ni ‘S’ ni ‘s’ I have no exquisite reason” [^e^] Ni ‘e’ ni ^ Look here a^b El patrón ‘a carat b’ Look up a^b now

5 Dan Jurafsky Expresiones Regulares: Más Disyunción Woodchucks (marmota) es otro nombre para groundhog! (marmota) El pipe | es para disyunción PatternMatches groundhog|woodchuck yours|mineyours mine a|b|ca|b|c = [abc] [gG]roundhog|[Ww]oodchuck Photo D. Fletcher

6 Dan Jurafsky Expresiones Regulares: ? * +. Stephen C Kleene PatternMatches colou?r El caracter previo es opcional color colour oo*h! 0 o más caracteres previos oh! ooh! oooh! ooooh! o+h! 1 o más caracteres previos oh! ooh! oooh! ooooh! baa+baa baaa baaaa baaaaa beg.nbegin begun begun beg3n Kleene *, Kleene +

7 Dan Jurafsky Expresiones Regulares: Anclas ^ $ PatternMatches ^[A-Z]Palo Alto ^[^A-Za-z]1 “Hello” \.$The end..$.$The end? The end!

8 Dan Jurafsky Ejemplo Encuentra las instancias de la palabra “the” en el texto. the No recupera los que inician con mayúscula [tT]he Incorrectamente recupera palabras que lo contienen [^a-zA-Z][tT]he[^a-zA-Z]

9 Dan Jurafsky Errores El proceso que seguimos se baso en corregir dos tipos de errores Recuperar cadenas que no debimos haber recuperado (there, then, other) Positivos Falsos (Tipo I) Cosas que no se recuperaron y que debieron haber sido recuperadas (The) Negativos Falsos (Tipo II)

10 Dan Jurafsky Errores cont. En el PLN siempre encontramos este tipo de errores. Reducir la relación de errores para una aplicación frecuentemente envuelve esfuerzos antagónicos: Incrementar exactitud y precisión (minimizar falsos positivos) Incrementar la recuperación (minimizar falsos negativos).

11 Dan Jurafsky Resumen Las expresiones regulares juegan un rol sorprendentemente importante Secuencias sofisticadas de expresiones regulares frecuentemente son el primer modelo para cualquier texto procesado Para muchos trabajos difíciles, utilizamos clasificadores basados en machine learning. Pero las expresiones regulares se utilizan como rasgos en los clasificadores Las ER pueden ser muy útiles en la captura de generalizaciones 11