Tesis de doctorado – Fernando Balbachan

1 Técnicas de clustering para inducción de categorías sin...
Author: Belén Plaza Prado
0 downloads 1 Views

1 Técnicas de clustering para inducción de categorías sintácticas en españolTesis de doctorado – Fernando Balbachan Facultad de Filosofía y Letras – Universidad de Buenos Aires Julio 2014 Scientists typically don’t study the phenomenal world. That’s why they do experiments. Our phenomenal world is way too complex. If you took videotapes of what’s happening outside your window, the physicists and chemists and biologists couldn’t do anything with it. Noam Chomsky In God we trust, all others bring data. William Edwards Deming

2 Organización de la presentaciónTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje (13 slides) 2. Hipótesis: palabras funcionales sin tipología diferenciada como facilitadoras de la categorización de palabras, punto de partida para la adquisición de sintaxis (7 slides) 3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística (12 slides) 4. Premisas básicas de clustering y propuesta metodológica (4 slides) 5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering (19 slides) 6. Nuestro experimento: Inducción no supervisada de categorías morfosintácticas mediante clustering a partir de palabras funcionales sin tipología diferenciada (36 slides) 7. Continuación del experimento hacia una sintaxis rudimentaria (1 slide) 8. Conclusiones generales (3 slides)

3 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje

4 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La incumbencia de la lingüística computacional En ocasiones se ha simplificado el aporte de la lingüística computacional, reduciéndolo a un mero aspecto ingenieril suplementario de la lingüística teórica: “La diferencia entre las tareas y los métodos de la lingüística humanística y de la lingüística computacional se puede comparar con la diferencia existente entre el trabajo de un ornitólogo y un constructor de aviones” [Galicia Haro y Gelbukh 2007:5] Sin embargo, las investigaciones en lingüística computacional de las últimas dos décadas aportaron a la elucidación de problemas tradicionalmente considerados por la lingüística teórica, como la adquisición del lenguaje, uno de los campos de estudio por antonomasia de la psicolingüística.

5 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje Los diversos paradigmas de la lingüística computacional La lingüística computacional y la psicolingüística han venido trabajando en describir modelos formales que puedan dar cuenta del proceso específico por el cual un ser humano desarrolla lenguaje ante una serie de estímulos (input), en un cierto período de tiempo, utilizando un mecanismo general de aprendizaje y/o conocimiento innato de especie -aunque sobre estos últimos dos recursos existen posturas con marcadas diferencias entre los diversos paradigmas científicos dominantes en lingüística computacional: modelos conexionistas modelos simbólicos modelos estadístico

6 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La confrontación estadístico (empirismo) vs. simbólico (innatismo) Entre el paradigma simbólico y el paradigma estadístico se ha entablado un contrapunto de concepciones epistemológicas opuestas en torno al problema de la adquisición del lenguaje, a partir del encolumnamiento de las obras fundacionales del campo detrás de teorías innatistas o teorías empiristas, respectivamente: “Probabilistic methods are providing new explanatory approaches to fundamental cognitive science questions of how humans structure, process and acquire language […] Probabilistic models can account for the learning and processing of language, while maintaining the sophistication of symbolic models.” [Manning y Charter 2006:335]

7 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La confrontación estadístico (empirismo) vs. simbólico (innatismo) El Argumento de la Pobreza de los Estímulos (Argument from the Poverty of the Stimulus APS) se presenta como el gran campo de debate epistemológico entre el paradigma simbólico y el paradigma estadístico, aunque ninguna teoría que avale tácita o taxativamente la hipótesis innatista deja en claro las propiedades y la estructura de ese conocimiento innato de que dispondríamos durante el proceso de adquisición del lenguaje: “The one thing that is clear about the argument from the poverty of the stimulus is what its conclusion is supposed to be: it is supposed to show that human infants are equipped with innate mental mechanisms specifically for assisting in the language acquisition process – in short that the facts about human language acquisition support ‘nativist’ rather than ‘empiricist’ epistemological views. What is not clear at all is the structure of the reasoning that is supposed to support this conclusion. Instead of clarifying the reasoning, each successive writer on this topic shakes together an idiosyncratic cocktail of claims about children’s learning of language and claims that nativism is thereby supported.” [Pullum y Scholz 2002:12]

8 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La confrontación estadístico (empirismo) vs. simbólico (innatismo) Las teorías empiristas no deben ser confundidas con un fundamentalismo que reniega de cualquier conocimiento inicial, como si el niño se enfrentara a tal problema cual tabula rasa. Los empiristas no refutan la existencia de algún mecanismo inicial como condición necesaria para adquirir el lenguaje; simplemente postulan que ese mecanismo se trataría de un aspecto más de la inteligencia humana (Piatelli-Palmarini 1980; Clark 2009), un algoritmo de aprendizaje de propósitos generales y no una habilidad que presupone a priori conocimiento de dominio específico (cf. concepto de Gramática Universal en Chomsky y concepto de facultad vertical en Fodor). Más aún, algunos empiristas no reniegan completamente del procesamiento encapsulado de dominio específico (Fodor 1983), pero rechazan la idea de que la adquisición del lenguaje sea un proceso llevado a cabo íntegramente por este tipo de capacidades cognitivas. La principal diferencia entre innatistas y empiristas es el grado de conocimiento específicamente lingüístico o conocimiento general, respectivamente, que aportarían inicialmente estas estructuras o mecanismos innatos, conocidos como sesgos fuertes o sesgos débiles (strong bias o weak bias), respectivamente (Lappin y Shieber 2007; Clark y Lappin 2013).

9 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La confrontación estadístico (empirismo) vs. simbólico (innatismo) La confrontación entre el paradigma simbólico y el paradigma estadístico en torno al problema de la adquisición del lenguaje se desató en dos frentes: 1) la supuesta imposibilidad de aprendizaje del lenguaje natural a través de una gramática formal de jerarquía superior a las Gramáticas Independientes de Contexto (Context-Free Grammars o CFG) ante la falta empírica de evidencia negativa (Gold 1967). 2) la renuencia de Chomsky y sus seguidores a dar crédito a las nociones estadísticas de la época como herramientas de análisis

10 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje La confrontación estadístico (empirismo) vs. simbólico (innatismo) El APS como justificación de la postulación de una Gramática Universal (GU) ya había sido sugerido por Chomsky (1965), mucho antes de que los trabajos sobre lenguajes formales pusieran bajo la lupa el isomorfismo chomskyano entre lenguajes naturales y lenguajes formales. Una gramática particular demandaría parametrizaciones en el orden de 1015 para un período de aprendizaje que se extiende durante sólo 108 segundos. Incluso en el caso de contemplar modelos de lenguaje markovianos de n-gramas (mucho menos costosos, pero sin estructura sintáctica), las parametrizaciones para un lenguaje de palabras serían 8*1012 sólo para el caso de trigramas. En uno u otro caso, estas especificaciones formales costosísimas obviamente no podían ser aportadas por los Datos Lingüísticos Primarios (Primary Linguistic Data PLD) en un período crítico de tiempo finito reducido, dada su supuesta pobreza estructural. Así pues, la conclusión de estas premisas es la necesidad de postular la existencia de una Gramática Universal innata disponible para un Language Acquisition Device (LAD), algo así como un órgano o facultad de la lengua con un dominio específico. Hacia fines de la década del ’60 aparece un trabajo fundamental acerca de los límites de la aprendibilidad de los lenguajes formales (Gold 1967) que fascinó a los más acérrimos defensores del innatismo, ofreciéndoles, en principio, un asidero argumentativo más robusto, aunque, como veremos más adelante, la lectura que se hizo de este trabajo estaba viciada de errores de interpretación. En efecto, el trabajo de Gold (1967) Identification In the Limit (IIL) fue el primero en proponer una teoría computacional de la aprendibilidad de lenguajes formales.

11 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold (1967): aprendibilidad de los lenguajes formales “Gold’s yardstick for measuring which models could learn which classes of languages was the following sequence of mathematically natural classes of languages, which are ordered by the subset relation: Finite C Superfinite C Regular C Context-free C Context-sensitive C Primitive Recursive C Recursive C Recursively Enumerable” [Johnson 2004:588]

12 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold (1967): aprendibilidad de los lenguajes formales En el modelo IIL de evidencia positiva únicamente puede ser aprendida la totalidad de la clase infinita de lenguajes finitos (un subconjunto de los lenguajes regulares tipo-3) y un subconjunto finito de lenguajes recursivos. En el modelo IIL de evidencia positiva y evidencia negativa puede ser aprendida la totalidad de la clase infinita de lenguajes recursivos, que se compone de un conjunto de las gramáticas dependientes del contexto (tipo-1), la totalidad de las gramáticas independientes de contexto CFG (tipo-2) y la totalidad de los lenguajes regulares (tipo-3).

13 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold y el sesgo fuerte (strong bias) El modelo IIL de Gold de evidencia positiva únicamente parecería demostrar la necesidad de postular una GU innata para dar cuenta de la posibilidad de aprender cualquier lenguaje natural ante PLD con evidencia positiva únicamente. Este argumento, concomitante con el APS, que busca demostrar la necesidad de una GU ante los PLD, se conoce en la bibliografía especializada como el Problema Lógico de la Adquisición del Lenguaje (Logical Problem of Language Acquisition LPLA): “A common route from LPLA to rationalism goes as follows. If there is no negative information, then there must be some other mechanism that enables the child to learn her language instead of a more expressive language. Such a mechanism would most plausibly be a cognitive ability that somehow prevents the child from entering a situation where negative evidence is needed. Any such cognitive ability would appear to be domain-specific to language and not learned. Thus, the ability must be innate, so rationalists are right about language acquisition and empiricism is false.” [Johnson 2004:572]

14 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold y el sesgo fuerte (strong bias) Bajo esta perspectiva del Teorema de Gold, la GU cumple entonces el rol de acotar en forma innata el espacio de hipótesis posibles para una gramática particular ante los PLD particulares de una lengua. A esto se lo conoce como sesgo innato fuerte o de dominio específico (Clark y Lappin 2011, 2013), un mecanismo de gran riqueza estructural que especifica los tipos de gramáticas particulares posibles: “Universal grammar consists of (i) a mechanism to generate a search space for all candidate mental grammars and (ii) a learning procedure that specifies how to evaluate the sample sentences. Universal grammar is not learned but is required for language learning. It is innate.” [Nowak et al.2001: ]

15 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold revisitado y la evidencia negativa indirecta “Despite it’s impressive impact in cognitive science, Gold’s Theorem is frequently misinterpreted. All of the authors listed above, for instance, have made false -and in some cases wildly inaccurate- claims about the theorem. Indeed, even rationalists, who might welcome support from the theorem, have made incorrect criticisms of the general assumptions that drive it (Chomsky 1986). The widespread confusion about the theorem is especially surprising, since even those who have misunderstood it have claimed that its proof «is quite easy to grasp intuitively».” [Johnson 2004:572] Confusión entre complejidad de la clase y complejidad dentro de un lenguaje en particular (Johnson 2004) Distinción entre identificabilidad y asequibilidad (Cowie 1999) La no aprendibilidad no demuestra la existencia de la GU (Nowak et al. 2001)

16 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje El teorema de Gold revisitado y la evidencia negativa indirecta A partir de la revolución bayesiana en lingüística computacional, las técnicas estadísticas, otrora ineficaces para lidiar con la aceptabilidad de oraciones que requerían los corpora reales, se renuevan incorporando la noción de probabilidad en términos de grado subjetivo de incertidumbre (subjective degree of uncertainty). De este modo, aparece la noción de evidencia negativa indirecta en los PLD “This sort of data has traditionally been called «Indirect Negative Evidence». The most natural way to formalise the concept of indirect negative evidence is with probability theory. Under reasonable assumptions, which we discuss below, we can infer from the non-occurrence of a particular sentence in the data that the probability of its being grammatical is very low. It may be that the reason that we have not seen a given example is that we have just been unlucky. The string could actually have quite high probability, but by chance we have not seen it. In fact, it is easy to prove that the likelihood of this situation decreases very rapidly to insignificance.” [Clark y Lappin 2011:12]

17 1. Marco epistemológico: el problema de la adquisición del lenguajeTécnicas de clustering para inducción de categorías sintácticas en español 1. Marco epistemológico: el problema de la adquisición del lenguaje Conclusión de la sección 1 De un modo u otro, está claro que la trascendencia del Teorema de Gold, desde una mera teoría de la aprendibilidad computacional de lenguajes formales hacia el campo psicolingüístico de la adquisición del lenguaje natural, no está exenta de polémicas interpretaciones. En última instancia, la mejor forma de refutar el APS y la necesidad de una GU es demostrar empíricamente que en los PLD existe cierta riqueza estructural suficiente para inducir una gramática por medio de mecanismos generales (no de dominio específico) de aprendizaje no supervisado: “In fact, recent experimental research in unsupervised learning […] indicates that it is possible to achieve accuracy approaching the level of supervised systems. Of course, these results do not show that human language acquisition actually employs these unsupervised algorithms. However, they do provide initial evidence suggesting that weak bias learning methods may well be sufficient to account for language learning. If this is the case, then positing strong biases, rich learning priors, and language specific learning mechanisms requires substantial psychological or neural developmental motivation. The APS does not, in itself, support these devices.” [Clark y Lappin 2011:29]

18 Técnicas de clustering para inducción de categorías sintácticas en español2. Hipótesis: palabras funcionales sin tipología diferenciada como facilitadoras de la categorización de palabras, punto de partida para la adquisición de sintaxis

19 2. Hipótesis La sintaxis como procesos en cascada a partir de los PLDTécnicas de clustering para inducción de categorías sintácticas en español 2. Hipótesis La sintaxis como procesos en cascada a partir de los PLD En la última década aparecieron algunos trabajos dentro del paradigma estadístico que se propusieron atacar el Argumento de la Pobreza de los Estímulos -y consecuentemente, la hipótesis innatista- a partir de la postulación de algún algoritmo general no supervisado de adquisición integral del lenguaje. Los estímulos (PLD) no parecen ser tan pobres como se creería: “We make no claims as to the cognitive plausibility of the induction mechanisms we present here; however, the ability of these systems to recover substantial linguistic patterns from surface yields alone does speak to the strength of support for these patterns in the data, and hence undermines arguments based on ‘the poverty of the stimulus’.” [Klein y Manning 2004:478] Confrontan con el APS -refutación argumentativa que se conoce como desafío (challenging). Enmarcados en el paradigma estadístico, abordan el problema desde la misma perspectiva inicial que el paradigma simbólico: la sintaxis como punto de partida para la adquisición del lenguaje y el isomorfismo entre lenguajes formales y lenguajes naturales. Así pues, la modelización de la adquisición ontogenética de sintaxis se presenta como un proceso en cascada que toma como punto de partida un corpus de lenguaje escrito cuantitativa y cualitativamente homologable a los PLD.

20 2. Hipótesis Categorización como punto de partidaTécnicas de clustering para inducción de categorías sintácticas en español 2. Hipótesis Categorización como punto de partida Algunos se focalizan sobre el proceso de categorización de palabras y toman en cuenta los indicios fonológicos en su modelización (Popova 1973; Levy 1985; Kelly 1992). En tales casos, será imprescindible que los datos lingüísticos del corpus de entrada al proceso contemplen la especificidad de la oralidad. Adolecen de un problema insalvable: sus respectivas hipótesis no fueron testeadas en un proceso en cascada para la adquisición integral de sintaxis. En cambio, debido a la naturaleza de la información distribucional que actúa como fuente de información primaria para sus modelos, los trabajos más abarcativos, como los de Clark (2002) y Klein y Manning (2004), optan por experimentar con corpora escritos, asumiendo la habilidad tremprana de procesamiento fonológico y segmentación de palabras y frases que se dan en los niños en forma previa a la categorización de palabras, según la abrumadora evidencia proveniente de la psicolingüística (Mehler et al. 1998; Jusczyk et al. 1999) “Taken together, these results (and many others) suggest that when they reach the end of their first year of life, babies have acquired most of the phonology of their mother tongue. In addition, it seems that phonology is acquired before the lexicon contains many items, and in fact helps lexical acquisition (for instance, both phonotactics and typical word pattern may help segmenting sentences into words), rather than the converse, whereby phonology would be acquired by considering a number of lexical items.” [Mehler et al. 1998:63]

21 Técnicas de clustering para inducción de categorías sintácticas en español2. Hipótesis Algoritmos de inducción integral de sintaxis a partir de PLD Las PCFG tienen mayor poder expresivo que las CFG. A la vez, las PCFG pueden ser aprendidas a patir del modelo IIL de evidencia positiva únicamente, por lo que serían un candidato plausible para la salida esperada del proceso en cascada, desde el punto de vista de la expresividad de los lenguajes naturales, los cuales se ubican más allá de los lenguajes formales de tipo 1 (CFG) (Shieber 1985), y desde el punto de vista del Teorema de Gold (Gold 1967). No obstante, las PCFG también presentan algunos escollos para convertirse en modelos del lenguaje natural

22 Técnicas de clustering para inducción de categorías sintácticas en español2. Hipótesis Algoritmos de inducción integral de sintaxis a partir de PLD en Español En español no existen esfuerzos similares de inducción integral de sintaxis desde el paradigma estadístico. Uno de los primeros trabajos de inducción de gramáticas es el algoritmo de inducción de Juárez Gambino y Calvo (2007). Basándose en la noción de sustituibilidad de Harris (1954) para hallar regularidades estructurales, estos investigadores desarrollaron un algoritmo no supervisado para entrenar al sistema de inducción de gramática ABL (Alignment-Based Learning) (van Zaanen 2000) con un corpus de español escrito (CAST-3LB). No obstante, resulta imperioso destacar que en este caso no se partió de la tarea de categorización de palabras sino de la premisa de información distribucional por sustituibilidad de contextos oracionales, lo cual le resta cierta plausibilidad psicolingúística al experimento. Es más, los propios autores reconocen que el agregado de información morfológica eleva sus propias métricas, por lo que cabría esperar que dicha información morfológica provenga de la etapa de categorización de palabras, la cual está ausente en sus experimentos. Justamente, en tanto el campo de inducción de gramáticas (grammar inference) trabaja mayormente con enfoques de aprendizaje de máquina (machine learning) no supervisados, la necesidad de corroborar las hipótesis propuestas con evidencia translingüística se torna imperiosa, ya que consolida la plausibilidad psicolingüística de las hipótesis.

23 2. Hipótesis Hacia la formulación de nuestra hipótesisTécnicas de clustering para inducción de categorías sintácticas en español 2. Hipótesis Hacia la formulación de nuestra hipótesis En definitiva, tal vez sea mucho pedir para una tesis de doctorado probar la invalidez completa del APS en función de inducir toda una gramática completa de un lenguaje natural a partir de los PLD por medio de métodos no supervisados de aprendizaje de dominio general. El propio Clark, cuya tesis de doctorado es un buen intento de esto mismo, reconoce que las gramáticas PCFG así generadas no necesariamente se condicen con la totalidad de un lenguaje natural. Un “atajo argumentativo” para desafiar la validez del APS como garante de la GU sería demostrar que la etapa temprana de categorización de palabras, punto de partida de los algoritmos integrales de inducción de sintaxis que mencionamos arriba, sí puede ser inducida a partir de los PLD mediante mecanismos no supervisados de aprendizaje general no específicos de dominio “Syntactic category information is part of the basic knowledge about language that children must learn before they can acquire more complicated structures. It has been claimed that «the properties that the child can detect in the input - such as the serial positions and adjacency and co-occurrence relations among words - are in general linguistically irrelevant.» (Pinker 1984) It will be shown here that relative position of words with respect to each other is sufficient for learning the major syntactic categories.” [Schüze 1993:251] “A current debate is whether young children possess an abstract representation of functional categories (e.g., determiner, auxiliary and preposition) or whether the representation of functional categories is built gradually in an item-by-item fashion. Strong nativist views held that children are innately endowed with a set of grammatical categories including functional categories. They possess abstract knowledge of grammatical categories since the beginning and use that knowledge to learn their first language. Therefore, according to constructivist views, young children do not have abstract knowledge of grammatical categories initially. It is the burden of constructivists to explain how children transform the item-based representation to adult-like grammar.” [Wang 2012:3-4]

24 2. Hipótesis Formulación de nuestra hipótesisTécnicas de clustering para inducción de categorías sintácticas en español 2. Hipótesis Formulación de nuestra hipótesis La hipótesis de esta tesis es demostrar que la tarea de categorización temprana en español puede ser inducida a través de los PLD a partir de indicios facilitadores (palabras funcionales sin tipología diferenciada e información distribucional), con el único pre-requisito del procesamiento fonológico de la segmentación de palabras y frases. Como objetivo secundario, esta tesis se propone demostrar la viabilidad de utilizar la categorización de palabras como punto de partida para un algoritmo integral de sintaxis del español, al estilo de los algoritmos integrales de Clark (2002) y de Klein y Manning (2004). La metodología a emplear incluirá la técnica de clustering no jerárquico K-means como mecanismo de aprendizaje general no supervisado sobre la información distribucional de un corpus que modelice los PLD. Esta hipótesis central no sólo se relaciona estrechamente con otros trabajos del campo de la psicolingüística que intentan dar un marco teórico para la adquisición temprana del léxico y los rudimentos de sintaxis, como Christophe et al. (2008), sino que también podría arrojar nueva evidencia de plausibilidad sobre modelos teóricos explicativos del lenguaje como la Gramática Chomskyana o sobre ambiciosos trabajos de modelización computacional del complejo proceso de adquisición del lenguaje, como Clark (2002), investigaciones en las cuales el rol temprano que cumplen las palabras funcionales resulta también crítico.

25 2. Hipótesis Palabras funcionales vs. palabras de contenidoTécnicas de clustering para inducción de categorías sintácticas en español 2. Hipótesis Palabras funcionales vs. palabras de contenido Las palabras funcionales pertenecen a una clase cerrada de palabras que manifiesta escasos procesos diacrónicos evolutivos y nulos procesos logogenéticos, a diferencia de las palabras de contenido, denominadas de clase abierta por su predisposición a incluir nuevos miembros (neologismos). Desde un punto de vista fonético y fonológico, las palabras funcionales poseen propiedades distintivas en casi todos los idiomas: menos sílabas y más cortas en duración, no portan acento tónico y suelen ocurrir en los límites de las frases fonológicas. En función de su minimalidad articulatoria, suelen realizarse a través de morfemas flexivos o partículas enclíticas. En términos de su probabilidad de ocurrencia, la frecuencia de ocurrencia de las palabras funcionales en cualquier muestreo es altísima (Zipf 1949). Prácticamente todos los miembros de la clase de palabras funcionales presentan una distribución uniforme, independientemente del tipo de palabras funcional al que pertenezcan (preposición, pronombres, conjunciones, etc.). Existe evidencia neurolingüística de un procesamiento diferenciado para las palabras funcionales (Díaz y McCarthy 2009). En cuanto a la perspectiva psicolingüística, las palabras funcionales también se caracterizan en contraposición a las palabras de contenido por su aparición tardía en el desarrollo ontogenético del lenguaje, especialmente desde el punto de vista de la producción.

26 Técnicas de clustering para inducción de categorías sintácticas en español2. Hipótesis El problema de las palabras funcionales: Conclusión de la sección 2 Si bien en las últimas dos décadas aparecieron bastantes trabajos sobre categorización de palabras, sólo recientemente la adquisición de palabras funcionales ha sido reivindicada por muy pocos trabajos como pre-requisito para el desarrollo lexical temprano (Wang 2012), cuando toda la evidencia de producción de lenguaje parece indicar lo contrario. Mientras que las palabras funcionales no están presentes en la producción de lenguaje del niño antes de los 2 años, las palabras de contenido pueden aparecer en producción en el léxico infantil tan prematuramente como desde el año de edad (algunos pocos ítems léxicos) y ciertamente alrededor del año y medio (con medio centenar de ítems léxicos) (Fenson et al. 1993). Esta paradójica inversión lógica de un supuesto pre-requisito evidenciado posteriormente en el tiempo luego de los eductos cuya aparición supuestamente facilitaría, será resuelta en las explicaciones venideras del presente trabajo, a la luz de renovada evidencia de las diferencias ontogenéticas entre producción y comprensión de palabras funcionales en niños y de las diferencias entre adquisición de palabras funcionales como ítems léxicos y procesamiento de sus propiedades distribucionales como clase en un corpus (Elghamry 2004).

27 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística

28 Técnicas de clustering para inducción de categorías sintácticas en españolLa naturaleza de los indicios facilitadores 3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística Indicios fonológicos y fonéticos: (Kelly 1992) (Lafferty y Mercer 1993) (falta de otras fuentes en el proceso de bootstrapping) Información semántica (Pinker 1984) (incompatibilidad entre categorías semánticas primitivas y set de categorías sintácticas mayormente dependientes del lenguaje) Conocimiento innato (Chomsky 1965) (opacidad respecto de los estadios intermedios previos a la consolidación de una gramática y respecto de la interacción con los PLD) Información distribucional (Harris 1954): absoluta (Maratsos y Chalkley 1981) vs. relativa (catalogada de improcedente, resistida por los chomskyanos) “Chomsky demuestra, probablemente de manera definitiva, que los conductistas y los estructuralistas norteamericanos de la primera mitad del siglo XX […] se equivocaron tanto en la identificación del objeto de estudio, como en los métodos que utilizaban. […] Por otra parte, en lo que a metodología respecta, resulta de todo punto inviable llegar a obtener por medio de la aplicación a un corpus de simples mecanismos de descubrimiento inductivos nociones lingüísticas como las de categoría gramatical o función sintáctica.” [Eguren y Fernández Soriano 2004:20]

29 Técnicas de clustering para inducción de categorías sintácticas en españolPrimeros estudios distribucionales: necesidad psicolingüística de indicios facilitadores (cues) 3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística Gramática MN/PQ (Smith 1966): no arrojó evidencia de categorización basada en información distribucional Mintz (2002) considera que el experimento de Smith (1966) adolece de un problema insalvable al considerar oraciones de sólo 2 palabras de extensión sin ningún indicio facilitador. Básicamente, sostiene que en ese escenario una palabra puede funcionar a la vez como objetivo (target) y como contexto (environment), dificultando un análisis distribucional efectivo en los aprendientes “One reason that this might be so has to do with the nature of distributional information and distributional analyses. Specifically, a given word can be a word-to-be categorized (target word) while also being a word that functions as a categorizing environment. To perform an effective analysis, learners must track a target word with respect to all of its environments across sentences; likewise, learners must register a word as an environment for all the relevant target words across sentences. While logically it would be possible for an ideal learner to track words simultaneously as targets and environments, without some way to ground a subset of words (e.g., in a category), it might be difficult for human learners to treat a word in a consistent way across sentences, and this might lead to difficulty in tracking the appropriate distributional contingencies. This may be particularly problematic with two word MN/PQ type sentences where there is no basis for making this distinction in distributional role.” [Mintz 2002:684]

30 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística Primeros estudios distribucionales: necesidad psicolingüística de indicios facilitadores (cues) Materiales de entrenamiento y evaluación para Mintz (2002): lenguaje artificial (jabberwocky) de 3 tokens

31 Técnicas de clustering para inducción de categorías sintácticas en españolPrimeros estudios distribucionales: necesidad psicolingüística de indicios facilitadores (cues) 3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística Demostración de la necesidad que evidencian los adquirientes de una lengua de disponer de indicios facilitadores convergentes al momento de encarar la tarea de categorización de palabras basada en la información distribucional. Estos indicios facilitadores (cues) no necesariamente deben estar representados por información temprana de naturaleza semántica o morfológica (postulados improbables de sostener, especialmente en el caso de las palabras funcionales). El propio Mintz da en la tecla al sugerir que una distinción tajante entre palabras target y palabras de contexto, ahora conocidas como cues bien podría funcionar como facilitadora de la tarea (como un contraste fondo-figura) : “In contrast, because of redundant distributional cues, the majority of stimuli that were used here provided a natural distinction: those words that made up a frame and those that occurred in the middle of a frame. This distinction might function like a figure–ground distinction to naturally lead learners to track the patterns of middle words in reference to frames (or frames in reference to middle words), thereby providing a grounding for the distributional analysis. Perhaps what was crucial about the converging cues in prior studies was that they selected a group of words as a target /environment reference point to start distributional learning, not necessarily that they directly (nondistributionally) categorized a set of words. If, here, the initial/final frames played a grounding role, it nevertheless is an open question whether natural language input incorporates functionally equivalent framing features to a significant degree.” [Mintz 2002:685]

32 Técnicas de clustering para inducción de categorías sintácticas en españolLa teoría de los marcos frecuentes (Mintz 2003,2006; Chemla et al.2009) 3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística Primera teoría psicolingüítica distribucional plausible en lenguaje natural para explicar habilidad temprana con evidencia detectable a partir de los 12 a 15 meses (Mintz 2006; Gómez y Maye 2005). En contra de técnicas de clustering: “Thus, in the frequent-frames approach, the important computational work involves identifying the frequent frames. Once identified, categorization is simply a matter of grouping together the words that intervene in a given frequent frame throughout a corpus. In contrast, in other approaches (Mintz et al., 2002; Redington et al., 1998) the crucial computations involved tracking the statistical profile of each of the most frequent words with respect to all the contexts in which it occurs, and comparing the profiles of each word with all the other words. Thus, an advantage of the frequent-frames categorization process is that, once a set of frequent frames has been identified, a single occurrence of an uncategorized word in a frequent frame would be sufficient for categorization. Moreover, it is computationally simpler, in that fewer total contexts are involved in analysing a corpus.” [Chemla et al. 2009:397] Desde un punto de vista formal, un marco frecuente es un trigrama o co-ocurrencia de una palabra target (la variable ‘X’ en el siguiente ejemplo) en el medio de dos palabras contexto (las variables ‘A’ y ‘B’ en el siguiente ejemplo): [A X B] , [you X the] , ...

33 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los marcos frecuentes (Mintz 2003,2006; Chemla et al.2009) Pero su mayor simplicidad es también su talón de Aquiles “One challenge in forming categories from distributional cues is to establish an efficient balance between the detection of the especially informative contexts and the rejection of the potentially misleading ones. For example, in (1), that cat and mat both occur after the suggests that the two words belong to the same category. However, applying this very same reasoning to example (2) would lead one to conclude that large and mat belong to the same category […]. (1) the cat is on the mat (2) the large cat is on the mat To address the problem of the variability of informative distributional contexts, the procedures developed by Redington et al . (1998) […] took into account the entire range of contexts a word occurred in, and essentially classified words based on their distributional profiles across entire corpora.” [Chemla et al. 2009:397] Para ampliar el poder descriptivo de los marcos frecuentes en una eclosión de contextos diversos, la teoría da cuenta de marcos frecuentes discontinuos (no coincidentes con frases fonológicas), lo cual es explicativamente inadecuado

34 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los marcos frecuentes (Mintz 2003,2006; Chemla et al.2009) Hay evidencia de manejo de discontinuidad en palabras (no de estructuras sintácticas) recién a partir de 18 meses (3 meses más tarde de lo que Mintz necesita): “Gómez (2002) found that 18-month-old infants could learn nonadjacent dependencies in an artificial grammar (e.g., ‘pel__rud’, where the underscore could be several disyllabic words, such as ‘waddim’), but only if there was high variability in the set of possible intervening words. As the set size of possible middle words increased from 2, to 6, to 12, to 24, children improved in their ability to discriminate between trained and untrained word strings (see also Gómez & Maye, 2005, for evidence of nonadjacent dependency learning at younger ages). Because this study did not require children to generalize the pattern to novel audio strings, it is not possible to determine if children learned an abstract rule or a set of specific patterns. However, this does not diminish the importance of the finding that infants were sensitive to the distributional properties of nonadjacent ‘words’.” [Goodwin 2013:17] Deberíamos aceptar que los niños manifiestan un sesgo de mejora de performance ante estímulos de marcos discontinuos incluso por sobre los estímulos de marcos continuos; pero las discontinuidades en constituyentes sintácticos sólo pueden ser formalizadas a través de reglas de reescritura de frase para gramáticas del tipo Mildly Context-Sensitive Grammars MCSG Es decir, estaríamos postulando que aun antes de que el niño disponga de una “protogramática”, ya manifestaría una sensibilidad performativa superior hacia estímulos de constituyentes discontinuos, los cuales, en realidad, formalmente no debería poder distinguir de otros marcos frecuentes continuos. Forzosamente, la explicación de tal efecto ha de ser otra para no incurrir en esta flagrante petitio principii.

35 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes (Christophe et al. 2008) Los niños podrían empezar a adquirir un lexicón categorizado a partir de dos tipos de indicios facilitadores: las frases fonológicas (phonological bootstrapping), cuyos límites actuarían como indicadores de rudimentarios protoconstituyentes sintácticos, y los tipos (prototipos) de palabras funcionales, que ayudarían a etiquetar dichos protoconstituyentes. Una palabra de contenido o target (‘xxx’) podría ser agrupada en función de la palabra funcional adyacente que la acompaña en el protoconstituyente:

36 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes (Christophe et al. 2008) Continuador de la motivación distribucional de la teoría de los marcos frecuentes de Mintz, sólo que se propone, por un lado, refinar el concepto de marco frecuente, dotándolo de una entidad sintáctica más robusta, en función de los indicios de unidades fonológicas y, por otro lado, enriquecer la naturaleza de los “nuevos marcos” (protoconstituyentes) con información sintáctica rudimentaria, producto de los tipos de palabras funcionales que caracterizan dichos marcos (por ej. el determinante ‘the’ etiquetaría un protoconstituyente NP, el verbo auxiliar ‘is’ etiquetaría un protoconstituyente VP). No obstante, obsérvese que el concepto de protoconstituyente sintáctico como elemento facilitador para el proceso de categorización resulta incompatible con los marcos frecuentes (Mintz 2003, 2006; Chemla et al. 2009), ya que -recordemos- los marcos frecuentes no coincidían necesariamente con los límites sintácticos de las frases.

37 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes (Christophe et al. 2008) El experimento principal consiste en reproducir en adultos las condiciones ontogenéticas de los niños inmediatas a la aparición de evidencia de categorización de palabras (alrededor de los 15 meses de vida), para categorizar palabras target sin sentido (jabberwocky) Los investigadores reportan resultados que comprueban la hipótesis del modelo, convalidando el rol crucial que desempeñan las palabras funcionales para categorizar las palabras target adyacentes en un mismo protoconstituyente sintáctico. Es decir, se verifica el papel de las frases fonológicas y de los tipos de palabras funcionales para el proceso de categorización de palabras de contenidos.

38 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes (Christophe et al. 2008) Como veremos más adelante, la ausencia de palabras funcionales en producción no es motivo suficiente para postular su no gravitación en los mecanismos léxicos de la comprensión. Christophe et al. (2008) explican la disponibilidad temprana de las palabras funcionales a partir de los indicios prosódico-fonológicos que caracterizan esta clase de palabras: “A second crucial aspect of the model is the special role played by function words (e.g., determiners, auxiliaries, prepositions, etc.). They are represented within a special lexicon, that is built and accessed from the prelexical representation (paying special attention to prosodic edges) and that directly informs syntactic processing. Infants may be able to discover function words quite early in their acquisition of language because they are extremely frequent syllables that typically occur at prosodic edges (beginning or end depending on the language).” [Christophe et al. 2008:63]

39 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes (Christophe et al. 2008) Si bien los autores sacan a relucir evidencia empírica de que alrededor del año de vida los niños son capaces de distinguir palabras funcionales en contraposición a palabras de contenido, esta habilidad temprana no alcanzaría para satisfacer el requerimiento del modelo de poder identificar tipos de palabras funcionales, lo cual recién se alcanza en algunos idiomas como el alemán, en el mejor de los casos, a los 16 meses de edad y en otros, como el inglés, recién a los 18 meses: “In favor of this hypothesis, several experiments showed that infants around their first birthday already possess some knowledge of the function words of their language […]. Identifying a list of functional items would not be sufficient for infants to start doing even a rough syntactic analysis: To that end, infants would need, in addition, to identify categories of function words, such as determiners (signaling nouns) and pronouns (signaling verbs). […]. In another recent experiment, Kedar, Casasola and Lust (2006) showed that 18- and 24-month-old American infants were better at identifying a known noun depending on whether it was preceded by a correct function word (the) or an inappropriate one (and, as in “Look at and ball!”[…]). These results suggest that infants within their second year of life are already figuring out what the categories of functional items are in their language.” [Christophe et al. 2008:67] El modelo bien puede ofrecer una explicación plausible para el proceso de categorización de palabras de contenido que constituye la explosión léxica (vocabulary spurt) alrededor de los dos años de vida, pero difícilmente puede dar cuenta de la categorización temprana que se da a partir de los 15 meses (o incluso antes).

40 Técnicas de clustering para inducción de categorías sintácticas en español3. Estado de la cuestión y orígenes del problema desde la perspectiva psicolingüística La teoría de los protoconstituyentes: Conclusión de la sección 3 En conclusión, el conflicto entre los requerimientos formales de esta teoría y la evidencia empírica se da en torno a la no disponibilidad consolidada de los tipos de palabras funcionales, aunque sí de la noción misma de palabra funcional (en contraposición a la de palabras de contenido). Es decir, como veremos más adelante, podremos contar para nuestro experimento con la disponibilidad de la noción de palabras funcionales pero convenientemente declinaremos disponer de la tipología de la mismas. De ese modo, sortearemos las polémicas alrededor de la posibilidad o no de que los niños dispongan de las nociones de tipos de palabras funcionales antes de evidenciar el proceso de categorización de palabras de contenido (antes de los 18 meses de edad). Con todo, consideramos que el gran mérito del trabajo de Christophe et al. (2008) es haber sido uno de los pioneros desde el campo de la psicolingüistica en reconocerles a las palabras funcionales un rol específico de vital importancia durante el proceso de adquisición temprana del léxico, pese a las escasas evidencias de utilización de dichas palabras en la producción infantil temprana. Pero veremos que ese rol está dado más por las propiedades distribuicionales de pivot antes que por cuestiones inherentes a la clase cerrada de palabras funcionales.

41 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica

42 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica Pertinencia de técnicas de clustering para la categorización de palabras En la mayoría de los trabajos de inducción de categorías morfosintácticas a partir de información distribucional mediante técnicas de clustering se recurre a una misma premisa: para analizar la distribución del contexto de ocurrencia de cada palabra (target) usaremos una unidad denominada bigrama: co-ocurrencia de pares de ítems léxicos en una relación fija contigua. Dicha relación puede ser, por ejemplo, la contigüidad que existe entre una palabra target (es decir, la palabra que se pretende estudiar) y su contexto inmediato (la palabra inmediatamente siguiente o anterior), relación denominada comúnmente ventana de análisis y en particular, bigrama hacia la derecha o bigrama hacia la izquierda, respectivamente.

43 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica Pertinencia de técnicas de clustering para la categorización de palabras Por ejemplo, si todo el corpus consistiera en una única frase “la vaca salta sobre la cerca”, la siguiente tabla representaría el vector de ocho dimensiones del contexto correspondiente a la palabra salta Este vector de ‘salta’ (0,0,1,0,0,1,0,0) representaría, en este corpus de una única oración, una suerte de ADN de la palabra target respecto de su combinatoria con las 4 únicas palabras de este vocabulario, en términos de bigramas hacia la derecha y bigramas hacia la izquierda, respectivamente. Eventualmente, la relación de determinación del tipo de palabra entre una palabra target y sus vecinos del contexto (context) puede extenderse hasta abarcar a los vecinos más alejados (trigramas, tetragramas, etc.). No obstante, la influencia ejercida sobre el tipo de palabra target por parte de la ventana de análisis disminuye notablemente con las unidades mayores a bigramas.

44 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica Pertinencia de técnicas de clustering para la categorización de palabras En corpora masivos es de esperar que los ítems lexicales que pertenecen a una misma categoría morfosintáctica tengan una distribución similar, lo cual se traduce en una cercanía en el espacio vectorial. Esta premisa básica compartida por el clustering sobre información distribucional y por la teoría psicolingüística de los marcos frecuentes presenta sustanciales diferencias. Por un lado, en el caso de computar vectores sobre un corpus masivo se trabaja con un enfoque estadístico sistemático. Un vector de bigramas cubriría así todos los marcos de ocurrencia de una palabra target en cuestión y no sólo los más frecuentes. Es de esperar que la palabra ‘niño’ en español presente no sólo un elevado número para la frecuencia absoluta de bigramas como el-niño y niño-es sino también para otro tipo de combinaciones sistemáticas. Por otro lado, la ausencia de determinados bigramas también es significativa para el agrupamiento mediante clustering en el espacio vectorial. Así pues, la no ocurrencia de los bigramas niño-son o la-niño posiblemente sea una característica de todos los vectores que representan a los sustantivos comunes singulares masculinos en español. Mientras que esta información no era tomada en cuenta por la teoría de los marcos frecuentes, en las técnicas de clustering es naturalmente incorporada a los vectores en función de una buena determinación de las palabras de contexto que actúan como facilitadores (cues).

45 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica Pertinencia de técnicas de clustering para la categorización de palabras Por supuesto, resulta inadecuada la idea de que el perfil de ocurrencias distribucionales de una palabra target en un corpus masivo involucra combinaciones a izquierda y a derecha con cada una de las palabras del vocabulario de una lengua. Esto se verifica con la concepción misma de la sintaxis subyacente a dichas combinaciones, independientemente de la extensión del corpus a relevar. Sólo por mencionar un ejemplo, en una misma frase fonológica la combinación de dos sustantivos en español -sin palabra funcional de por medio que los articule- está prohibida. Esto nos lleva a considerar la intuición de que resultaría inadecuada una caracterización vectorial de una palabra target respecto de todas las combinaciones posibles, lo cual redundaría en vectores de dimensiones en un vocabulario de palabras a derecha y a izquierda, y de dimensiones en el caso de considerar bigramas y trigramas. Matemáticamente resulta inviable modelizar un espacio vectorial de decenas de miles e incluso millones de dimensiones. Incluso así, la inmensa mayoría de dichas dimensiones aportaría cero ocurrencias al vector, en virtud de las prohibiciones sintácticas combinatorias -dispersión de eventos en el espacio vectorial (sparsity). Estas consideraciones matemáticas han derivado necesariamente en la idea de la reducción de la dimensionalidad de los vectores, SVD , PCA y en nuestro caso, MI

46 4. Premisas básicas de clustering y propuesta metodológicaTécnicas de clustering para inducción de categorías sintácticas en español 4. Premisas básicas de clustering y propuesta metodológica Conclusión de la sección 4 Este procedimiento algebraico de reducción de la dimensionalidad del espacio vectorial a partir de la identificación de palabras marcas (cues) tiene su perfecto correlato en la evidencia psicolingüística ontogenética de la adquisición de la habilidad temprana de categorización de palabras que estudiamos en la sección anterior: aprendemos a categorizar palabras en función de cierta información facilitadora (cues) (recordemos la analogía fondo-figura de Mintz). Como mencionamos, la hipótesis central de este trabajo sostiene que dicho papel sería desempeñado mayormente por las palabras funcionales de un idioma, en virtud de su ocurrencia masiva y de sus propiedades distribucionales y articulatorias (actúan como bisagras) respecto de las restantes palabras. Dos grandes desafíos se derivan de esta hipótesis central: demostrar que estas cues están disponibles para el adquiriente de un lenguaje en forma previa a los tipos de palabras morfosintácticas a inducir -si no como palabras plenamente adquiridas, al menos como marcas formales en la distribución de los PLD- y demostrar que esta inducción puede ser llevada a cabo mediante mecanismos generales (no de dominio específico) de aprendizaje no supervisado.

47 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering

48 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Dos décadas de categorización por clustering 1. Brown et al.(1992): Primer trabajo, clustering jerárquico con bigramas a izquierda como cues y validación por minimización de perplejidad de modelos markovianos entrenados. Vocabulario exhaustivo de types en 1000 clusters. Parametrización sin plausibilidad psicolingüística pero alta F-score = 68,7% 2. Schütze (1993): Incorporación de fase de red neuronal para primer tratamiento de palabras ambiguas. Dimensionalidad reducida por SVD. Bigramas a izquierda y a derecha y con distancia = 1. Parametrización de 500 clusters en types del New York Times News Service. 3. Martin et al.(1998): Continuación de Brown (1992) con ventana de análisis a izquierda y a derecha de bigramas y 2nd word (distancia =1) clusters inducidos? (dudoso). 4. Redington et al. (1998): Primer enfoque exhaustivo con motivación psicolingüística en las decisiones de diseño (nuestra inspiración) (ver detalle a continuación). 5. Clark (2000, 2002, 2003): Primera integración de categorización de palabras a algoritmo de inducción integral de sintaxis. Cobertura de palabras ambiguas y raras (dis legomena, hapax legomena) y hasta elipsis F-SCORE = 71,2% 6. Investigaciones actuales a partir de los trabajos clásicos: Propiedades topológicas de red emergentes del corpus (Nath et al. 2008). Capitalización como feature discriminativa (Berg-Kirkpatrick et al con F-score = 75,5%). Clustering en palabras funcionales con plausibilidad psicolingüística (Wang 2012) (ver detalle a continuación).

49 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Redington et al.(1998): decisiones de diseño Algoritmo de hard clustering (no da cuenta de la ambigüedad POS-tag, ya que asigna un miembro a una única clase), jerárquico aglomerativo de enlace promedio (average linkage) -más apropiado para lidiar, mediante el debido tratamiento de los casos apartados (outliers), con clusters elongados y no tan esféricos como los que se espera en la modelización vectorial de la categorización de palabras. Los datos de entrada están basados en la sección transcripta de discurso adulto del corpus CHILDES (Child Language Data Exchange System) en inglés, un corpus con emisiones de padres durante el proceso de adquisición del lenguaje de sus hijos, establecido en 1985 con 2,5 millones de tokens de aproximadamente hablantes (2/3 de los cuales son mujeres). Los propios autores admiten que el corpus elegido no necesariamente incluye lenguaje únicamente dirigido a niños (child directed speech), como el maternés (motherese) o baby talk. Aun así, como el mismo Chomsky (1959) concede, se debe tomar en cuenta que los niños en edad de adquirir el lenguaje no sólo se ven expuestos a los enunciados dirigidos específicamente hacia ellos, sino que los medios audiovisuales de comunicación o incluso las conversaciones entre adultos bien podrían funcionar como otros proveedores de PLD.

50 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Redington et al.(1998): decisiones de diseño A partir de dicho corpus, los autores trazan un Perfil de Frecuencia Decreciente (Decreasing Frequency Profile DFP) con las ocurrencias de palabras (types). El DFP ofrece información fundamental para identificar las palabras que actuarán como cues o features y las que serán objeto (target) del clustering. Apartan las 150 palabras más frecuentes como cues del contexto y seleccionan las restantes 1000 palabras más frecuentes como palabras target para sus experimentos de clustering. Esta decisión de diseño del experimento los diferencia de los enfoques anteriores que buscaban cubrir con técnicas de clustering vocabulario de tamaño masivo. Justificación desde el punto de vista de la plausibilidad psicolingüística: “It is not necessary (or even desirable) to record these statistics for every word in the input in order to provide useful information. From a psychological perspective, in the early stages of syntactic category acquisition, it seems unlikely that a syntactic category will be assigned to every word in the child’s input, particularly given that the child’s vocabulary is very limited. […] It may also be computationally appropriate to focus on a small number of target words in order to provide more reliable distributional information and to avoid unnecessarily complex computation. Moreover, it may be appropriate to be even more restrictive with respect to the set of context words (over which frequency distributions are observed). This is because each target word may occur in a relatively small number of contexts, and only the most frequent words in these contexts will provide reliable frequency information.” [Redington et al. 1998:436] “Although the child might not have access to 1,000 vocabulary items, if the child applies distributional analysis over its small productive vocabulary, this will work successfully, because this vocabulary consists almost entirely of content words. Moreover, prior to the vocabulary spurt, the child’s syntax, and thus, presumably, knowledge of syntactic categories is extremely limited, and hence even modest amounts of distributional information may be sufficient to account for the child’s knowledge. By the third year, the child’s productive vocabulary will be approaching 1,000 items (e.g., Bates et al. 1994, found that the median productive vocabulary for 28 month olds was just under 600 words) and hence could in principle exploit the full power of the method.It is also possible that, even when children’s productive vocabularies are small, they may have a more extensive knowledge of the word forms in the language. It is possible that the child may be able to segment the speech signal into a large number of identifiable units, before understanding the meaning of the units (Jusczyk 1997).” [Redington et al. 1998:454]

51 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Redington et al.(1998): decisiones de diseño Como ya mencionamos, el modelo de Redington et al. (1998) no da cuenta de la posible ambigüedad del tipo de palabras (hard clustering). Esta carencia obliga a los autores a disponer de una referencia (benchmarking) según el tipo de palabra más probable (en el caso de ambigüedad) para cada forma léxica de las 1000 palabras target. Para ello recurren a la base de datos Collins Cobuild Lexical Database. Finalmente obtienen 956 palabras target con un único POS-tag de referencia. Este procedimiento de benchmarking para desambigüación puede ser considerado el gold standard contra el cual se evaluará la efectividad de los clusters. En nuestro experimento adoptaremos esta misma decisión de diseño. Los autores aclaran que de las 1000 palabras target, 44 no pudieron ser POS-etiquetadas y que unas 100 fueron etiquetadas a mano (mayormente, nombres propios). Esto significa un subset final de palabras target de 956 palabras.

52 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Redington et al.(1998): Experimento 0 – parámetros default Corpus: corpus original de 2,5 millones de tokens Cues: 150 types más frecuentes Palabras target: 956 types siguientes en el DFP Contexto: bigramas y 2nd word a derecha y a izquierda (600 dimensiones para cada target) Corte del dendrograma: 0,8 Criterio de similitud: correlación de Spearman Evaluación: precisión y cobertura Salida: 37 clusters en total, 12 clusters conteniendo más de 10 miembros, 25 clusters indecidibles por miembros escasos Resultado: clusters no homogéneos, por ejemplo aparecen bastantes nombres propios en el cluster de conjunciones e interjecciones.

53 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 1: Diferentes contextos y coeficientes de corte Contexto: se amplía la ventana de análisis: bigramas, 2nd palabra siguiente, 3rd palabra y 4th siguientes a derecha y precedentes a izquierda, cada uno de ellos por separado. Corte del dendrograma: variable entre 0 y 0,9 Resultado: El contexto precedente es más informativo que el contexto siguiente. El uso de contextos más amplios (3rd y 4rd) mejora la precisión, pero empeora la cobertura (porque a medida que crece el contexto crece también el número de posibles construcciones sintácticas). El contexto ideal, al nivel del dendrograma elegido, es la combinación de bigramas y 2nd word siguiente, antes y después de la palabra target (parámetro por default del experimento inicial 0), con una precisión de 0,79 y una cobertura de 0,45. Este contexto local y pequeño impone una restricción al tipo de relaciones entre palabras y constituye una respuesta a la objeción de Pinker (1984), según la cual la infinita cantidad de relaciones posibles haría inútil el intento de obtener información válida al usar el enfoque distribucional.

54 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 2: Variación en el número de palabras target Palabras target: desde los 10 types siguientes a las 150 cues en el DFP hasta 2000 palabras en total Resultado: La efectividad del método de clustering varía en forma de campana invertida según el número de palabras target: no brinda información cuando hay pocas palabras (porque se supone que entre ellas están las más frecuentes, que todavía pertenecen a categorías cerradas), ni cuando hay muchas (porque la precisión del modelo aumenta a la vez que su cobertura decrece). El método funciona mejor cuando tanto la cantidad de palabras target como la de palabras contexto son reducidas y se condice con el número de palabras (aproximadamente 1000) que puede llegar a conocer típicamente un niño de tres años (Bates et al. 1994).

55 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 3: Desagregación de Experimento 0 por POS-TAG

56 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 4: Variación del tamaño del corpus Corpus: Variación entre , , 1 millón y 2 millones de tokens. Resultado: Se observa una marcada mejora en correlación con el aumento del tamaño del corpus a partir de 1 millón de tokens.

57 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 5: Información de límite de oraciones Explicación: El experimento original 0 no contemplaba los límites de oraciones ni de frases. Sin embargo, existe numerosa evidencia empírica de que los niños acceden a esta habilidad fonética de segmentación de frases en forma muy temprana (Christophe et al. 2008). A su vez, plantear relaciones de contexto-target-contexto que atraviesen los límites de oraciones (y hasta de frases) representa un error de modelización . De este modo, los autores incorporan información de límite de oraciones como un símbolo más en la distribución de ocurrencias de bigramas y trigramas y luego vuelven a correr los parámetros del experimento inicial 0 a distintos niveles de corte. Corte del dendrograma: variable entre 0 y 0,9 Evaluación: informatividad Resultado: Se observan mejoras en la métrica de informatividad con picos que se dan con un coeficiente de corte menor entre clusters en comparación con el experimento 0.

58 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 6: Cambio en el criterio de similitud entre clusters Corte del dendrograma: variable entre 0 y 0,9 Criterio de similitud: distancia Manhattan o city-block Evaluación: informatividad Resultado: Se observa un descenso en las métricas de evaluación entre el experimento inicial con criterio basado en la correlación de Spearman y el experimento 6 con la distancia Manhattan o city-block. Esta sensibilidad de la evaluación a los criterios de corte es moderada.

59 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 7: Remoción de las palabras funcionales del corpus Resultado: Se observa un marcado descenso en las métricas de evaluación entre el experimento inicial 0 y el experimento 7 con las palabras funcionales removidas del corpus (¿no era que los niños sólo comprenden las palabras de contenido?). Como mencionamos anteriormente, las técnicas de clustering son particularmente efectivas en escenarios con una distribución de eventos muy frecuentes. Como las palabras funcionales en cualquier idioma suelen ser las palabras más frecuentes en cualquier corpus, y las de aparición más predecible en co-ocurrencia con las palabras target (mayormente de contenido), la conclusión a que nos lleva este experimento no es inesperada. Crítica: en todo caso el experimento debe correrse con las palabras funcionales reemplazadas por un símbolo genérico, pero no removidas.

60 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Experimento 8: Cambios en la naturaleza del corpus Corpus: Comparación de escenarios con CHILDES y con una muestra de igual tamaño del British National Corpus (BNC) con lenguaje entre adultos (no dirigido a niños). Resultado: No se observan cambios significativos en los valores de las métricas de evaluación.

61 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Crítica del trabajo de Redington et al.(1998) Muy baja efectividad F=57,3% Los experimentos adolecen de ciertas fallas de diseño que podrían resultar incompatibles con los lineamientos epistemológicos del paradigma estadístico y podrían hacer mella en la plausibilidad psicolingüística de esta modelización. En particular, la crítica al algoritmo se centra en la identificación apriorística y arbitraria de las 150 palabras cues. La arbitrariedad en el diseño del algoritmo socava los mismos principios epistemológicos que el paradigma estadístico se propone defender. Idealmente, se esperaría que en un enfoque no supervisado fuera el propio algoritmo el que tome las decisiones de corte a partir de alguna heurística motivada exclusivamente en función de la información distribucional de los ítems léxicos, y no que éstas sean estipuladas a priori por la intuición lingüística o el arbitrio del investigador. Justamente, a partir de esta crítica presentaremos nuestro propio experimento de clustering.

62 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Wang (2012): clustering sobre palabras funcionales Se propone como uno de los trabajos pioneros en investigar específicamente la habilidad de categorización de palabras funcionales, lo cual redundaría en una tipología de palabras funcionales como pre-requisito para la categorización de palabras de contenido con el mismo mecanismo de aprendizaje no supervisado. Descarta la posibilidad de que la información semántica cumpla algún rol en el caso de la categorización temprana de palabras funcionales y, por lo tanto, se focaliza en la posibilidad de que los indicios prosódicos ayuden muy tempranamente a distinguir palabras funcionales en contraposición con las de contenido (Shi 1995) para que, luego, la información distribucional actúe como facilitadora del agrupamiento más refinado de categorías de palabras funcionales.

63 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Wang (2012): omisión sistemática de palabras funcionales Al comenzar a investigar se topa con un problema metodológico amenazante. Su objeto de estudio raramente se manifiesta en el habla temprana de sus informantes: Young children’s early speech often lacks functional elements such as function words (e.g., determiners in English) and inflectional morphemes (e.g., past tense -d and plural -s morphemes in English). Early speech was characterized as ‘telegraphic speech’ […] The process that is most relevant to the current discussion is the first process, imitation and reduction, in which children’s imitation of mothers’ speech often omits the functional elements. .” [Wang 2012:18-19] Como las omisiones resultan siempre muy sistemáticas, logra explicar esta tendencia a la imitación telegráfica del lenguaje materno a partir del concepto de Longitud Promedio de los Enunciados (Mean Length of Utterance MLU) y su consiguiente reformulación a Longitud Promedio de los Enunciados medido en morfemas (Mean Length of Utterance in morphemes MLUm) como parámetros de la evolución ontogénetica que podrían restringir las posibilidades combinatorias de enunciados en producción: “Children omitted words so their production is usually between two to four morphemes. In other words, some words were omitted in order to keep the length constraint. The underlying mechanism that is responsible for the length constraint and the initial omission is still uncertain. One can explain that the length constraint originates from certain domain-general cognitive processing or working memory limitations.” [Wang 2012:21]

64 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Palabras funcionales y función articulatoria (pivot) El discurso telegráfico de niños de 2 años en la etapa I de la adquisición de palabras funcionales (Brown 1973) podría explicarse como una saturación por parte de las palabras de contenido de la extensión máxima disponible en MLUm como recurso cognitivo para esa etapa de desarrollo. El MLUm de la etapa I es de apenas 1,75 morfemas, con lo que bastarían dos morfemas para saturar la capacidad productiva de los enunciados “There is no recognizable stage that marks the transition from two-word to multiple-word utterances. Once children get the idea of syntax, they may combine more than two words at a time, as in Goodluck’s examples: clock on there, kitty down there, other cover down there, up on there some more (Goodluck 1991). Children’s syntactic growth during this period is measured by the mean length of utterance (MLU), calculated according to the average number of morphemes per utterance. Although children may develop at very different rates, when their utterances approach a MLU of about 2.0, they begin to add the grammatical «glue» that holds together adult sentences, such as tense and number markers, possessive markers, helping verbs, and certain prepositions. This marks the transition to the next stage of development, what we might term the grammatical morpheme stage.” [Barry 2002:174]

65 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Wang (2012): omisión sistemática de palabras funcionales Para Wang (2012) el que las palabras omitidas en la reproducción del discurso materno sean sistemáticamente las palabras funcionales es una evidencia indirecta de que al menos en comprensión ya hay una representación rudimentaria de dicho tipo de palabras mucho antes de los 2 años de edad, en el momento indicado para propiciar la categorización temprana de palabras de contenidos y también la posterior explosión de vocabulario. Lo anterior no significa que las palabras de contenido iniciales no sean más fáciles de aprender o producir, sino que simplemente se sugiere que la ausencia sistemática de palabras funcionales en producción no necesariamente implica la ausencia de dicho tipo de palabras en los procesos activos de comprensión como clase no diferenciada por items: “Shi and Melançon (2010) tested young children’s knowledge of determiners and whether they can generalize between different determiners. […] Therefore, the result indicates that children as young as 14 months old are treating some determiners as a group so they could generalize and transfer knowledge of co-occurrence statistics between determiners. It further suggests that there is a primitive, if not completely abstract, determiner category in the grammar of young children.” [Wang 2012:28]

66 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Valoración general de Wang (2012) Wang (2012) aporta evidencia indirecta (omisión sistemática en producción) de una adquisición muy temprana (antes del año y medio de edad) de las categorías funcionales como clase y evidencia directa de conitinuidad en el repertorio y uso de categorías funcionales entre adultos y niños de alrededor de 2 años de edad. Estas dos observaciones habilitan a considerar a las palabras funcionales como candidatos ideales para facilitar (bootstrapping) la categorización de palabras de contenido que se evidencia en la explosión léxica (vocabulary spurt) alrededor de los 2 años: “The analyses showed that young children at the first half of their second year of life already possess abstract knowledge of some functional categories like determiner. Even before the second birthday, they already process function words/morphemes as abstract categories (Shi & Melançon, 2010). When they start producing combinatorial speech, they are able to quickly generalize nouns to different determiners. These evidence strongly suggests that they are actively using abstract knowledge in language processing and production […]. Their early sensitivity to function words/morphemes and abstract knowledge of functional categories indicate that they can use functional items to categorize nouns and verbs.” [Wang 2012:60-61] “Functional categories are available in children’s grammar since very early on. Function words are late in production is not because of lack of knowledge of functional categories but probably due to performance-related factors. Functional categories are used by young children in the same way as adults do. The results are in favor of nativist views or a strong learning mechanism. With the knowledge of functional categories, children can start acquire syntactic constituents like NP and VP (because functional categories are the heads of the projections) and more complex syntactic structures. Distributional information in the input was able to accurately categorize function words with the help of acoustic cues. Therefore, it could be a primary source for initial categorization of function words and bootstrapping of functional categories.” [Wang 2012:90-91]

67 Técnicas de clustering para inducción de categorías sintácticas en español5. Estado de la cuestión desde la lingüística computacional: modelos formales basados en clustering Conclusión de la sección 5 Pero lo más importante a destacar del trabajo de Wang (2012) para nuestra propia hipótesis es haber demostrado que los indicios prosódicos, que actúan como identificadores de las palabras funcionales, permiten postular en forma muy temprana la representación asbtracta de las mismas como grupo, si no la plena adquisición, en niños de edades tan prematuras como los 14 meses. Si bien existe bastante evidencia empírica de tal facilitación prosódica en inglés y algunos otros idiomas, cabe preguntarse si para el caso del español la hipótesis de Wang (2012) resultará igualmente validada. Las palabras funcionales del español son bastante diversas en cuanto a sus propiedades fonéticas y fonológicas –mientras que los pronombres enclíticos parecen adecuarse a la característica de minimalidad prosódica, ése claramente no es el caso de los pronombres demostrativos, los pronombres personales nominativos o los pronombres indefinidos. De todos modos, como veremos en la próxima sección, la justificación de la identificación de las palabras funcionales como cues para la categorización de palabras en nuestro experimento no descansa tanto en el perfil prosódico de dichas palabras funcionales como más bien en sus propiedades distribucionales en cualquier corpus masivo (al pivotear entre palabras de contenido) (Elghamry 2004).

68 Técnicas de clustering para inducción de categorías sintácticas en español6. Nuestro experimento: Inducción no supervisada de categorías morfosintácticas mediante clustering a partir de palabras funcionales sin tipología diferenciada

69 6. Nuestro experimento Motivación de las decisiones de diseñoTécnicas de clustering para inducción de categorías sintácticas en español Motivación de las decisiones de diseño 1. Elegimos el clustering no jerárquico K-means con distancia euclideana sobre los centroides. Nos proponemos “historizar” el proceso iterativo de inducción de categorías hasta hallar una distribución óptima en función del conjunto de datos iniciales y una parametrización creciente de los números de clusters desde K=2 hasta K=nº máximo de cues. Esta historización sería inviable con un algoritmo de clustering jerárquico. Además, K-means ofrece otra ventaja: la menor complejidad de poder de cómputo. La distancia euclideana como criterio de similitud de objetos en el espacio vectorial se nos presenta más intuitivamente correcta que la distancia Manhattan para garantizar la plausibilidad de un mecanismo de aprendizaje general, a pesar de que se considera que esta última resulta menos sensible que la primera a la influencia de los objetos apartados (outliers) en el espacio vectorial. 2. El espacio vectorial multidimensional quedará definido por un procedimiento de identificación no arbitraria y no apriorística de las marcas sintácticas (cues) (Elghamry 2004) que habrán de sentar las bases del posterior modelado vectorial de las palabras targets en función de su contexto distribucional inmediato. Así pues, la única premisa lingüística que damos por sentada en esta modelización es la habilidad exitosa de segmentación de palabras, frases fonológicas y oraciones o enunciados (Mehler et al. 1998; Jusczyk et al. 1999), dejando de lado el acceso a indicios morfológicos de las palabras target y a indicios prosódicos para la identificación de palabras funcionales (Wang 2012), indicios sobre cuya disponibilidad no hay un consenso absoluto (Clark 2000, 2002, 2003). Al igual que Clark (2002), no renegamos, en principio, de la plausibilidad de dichas fuentes de información en el proceso de facilitación (bootstrapping) de la habilidad de categorización temprana de palabras. Simplemente, demostraremos que las propiedades distribucionales del corpus que modeliza los PLD son suficientes para inducir la categorización de palabras sólo a partir de postular la habilidad de segmentación de palabras y frases fonológicas. La convergencia de indicios provenientes de otras fuentes de información no hará sino robustecer nuestro argumento a fortiori.

70 6. Nuestro experimento Motivación de las decisiones de diseñoTécnicas de clustering para inducción de categorías sintácticas en español Motivación de las decisiones de diseño 3. La información distribucional con la que trabajaremos son los bigramas a derecha y a izquierda de las palabras target respecto de cada una de las dimensiones (cues) que conformarán el perfil distribucional de dicha palabra target. En todos los trabajos de clustering relevados, la mayor informatividad de la ventana de análisis sobre el contexto distribucional de la palabra target se focaliza en la relación de bigramas por sobre contextos más mediatos (2nd word, 3rd word). 4. En cuanto a la escalabilidad del algoritmo, seguiremos a Redington et al. (1998) y plantearemos un escenario con un vocabulario reducido de aproximadamente 1000 palabras target. De hecho, esa cantidad de palabras resulta esperable para la finalización de la etapa ontogenética que nos interesa modelizar: la explosión léxica (vocabulary spurt) (Dromi 1987) que se da en los niños entre los 2 y 3 años de edad. Por supuesto, este corte en las palabras target nos aleja de enfoques exhaustivos como los de Clark (2002). No obstante, consideramos que el aprendizaje no supervisado basado en técnicas de clustering es especialmente eficaz en agrupar eventos con una cierta ocurrencia frecuente en el espacio vectorial. 5. El inglés es un idioma con orden fijo de constituyentes sintácticos, los cuales mayormente siguen el orden canónico SVO. Este mecanismo actúa para desambiguar morfosintácticamente formas léxicas idénticas, a falta de marcación morfológica enriquecida. Gran parte del vocabulario inglés puede funcionar indistintamente como verbo o sustantivo. Esto justificaba el tratamiento de la ambigüedad del tipo de palabra morfosintáctica que habíamos observado en Schütze (1993) y en Clark (2002) como un problema de soft clustering (posibilidad de asignar un miembro a más de una clase). Sin embargo, éste no es el caso del español, un idioma morfológicamente rico. Si bien existen en español numerosas formas POS-ambiguas, incluso entre las palabras más frecuentes de cualquier corpus (por ejemplo ‘como’, ‘para’, ‘era’, etc.), consideramos que esta problemática no está tan extendida como en inglés (Graça et al. 2011). Por eso, al igual que Redington et al. (1998), nos alcanzara con implementar un mecanismo de desambigüación morfosintáctica para tales casos, basado en un corpus de referencia. Es decir, nuestro algoritmo trabajará con un hard clustering que asignará cada miembro de las palabras target a una única clase o cluster.

71 6. Nuestro experimento Motivación de las decisiones de diseñoTécnicas de clustering para inducción de categorías sintácticas en español Motivación de las decisiones de diseño 6. El corpus con el que se trabajará contará con una extensión compatible con los experimentos de Redington et al. (1998) del orden de 2 millones de tokens, respetando criterios de balance y plausibilidad de modelización de los PLD (Chomsky 1959; Pullum 1996). Si bien Clark (2002) sostiene que un corpus que modelice los PLD debe ir desde 10 millones de tokens a 100 millones de tokens para los cuatro años de estímulos linigüísticos que abarcan el período de surgimiento de una gramática de un lenguaje natural, preferimos reducir la complejidad combinatoria de nuestro experimento y demostrar que dichos corpora reducidos ya ofrecen las condiciones suficientes para la categorización de palabras mediante la información distribucional. Si nuestro objetivo se verifica, la hipótesis será validada a fortiori para un corpus más masivo. 7. Para la evaluación de nuestro experimento exploraremos diversas alternativas, pero podemos adelantar que nos basaremos principalmente en la métrica many-to-1. También seguiremos a Redington et al. (1998) en una evaluación discriminada para cada tipo de categoría inducida y postularemos nuestra propia justificación algebraica y sintáctica del agrupamiento de clusters (cluster merging) en hiperclusters a partir del mapeo many-to-1.

72 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 0 Input: Armado y procesamiento de corpus PLD El mismo Chomsky (1959) concede: se debe tomar en cuenta que los niños en edad de adquirir el lenguaje no sólo se ven expuestos a los enunciados dirigidos específicamente hacia ellos, sino que los medios audiovisuales de comunicación o incluso las conversaciones entre adultos bien podrían funcionar como otros proveedores de datos lingüísticos primarios. Tomando como guía el trabajo de Redington et al. (1998), en nuestro experimento comenzamos por armar un corpus no anotado morfosintácticamente de 1,8 millones de tokens, organizados en oraciones bien formadas del español. Debido a la masiva necesidad de oraciones gramaticales y a los requerimientos de procesamiento se optó por la incorporación de voluminosos textos en formato electrónico (libros electrónicos) y artículos periodísticos, de modo de balancear el registro textual. El corpus final abarcó 1,8 millones de palabras (tokens) y tipos (types, entendidos como cualquier cadena de caracteres alfanuméricos entre signos de puntuación o espacios en blanco sin distinción mayúsculas/minúsculas). Una única instancia de type puede manifestarse en un corpus con la ocurrencia concreta de dicha palabra en numerosos tokens.

73 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 1 Identificación de cues: propiedades distribucionales de palabras funcionales Las técnicas de clustering resultan sensibles a la frecuencia de los eventos que ocurren en el espacio vectorial. Es decir, los resultados de clustering tienden a ser mejores cuanto más frecuentes son los eventos a clusterizar, ya que naturalmente es de esperar que los patrones estadísticos tiendan a consolidarse con la ley de los grandes números de la teoría de la probabilildad. A su vez, en la relación de palabras funcionales vs. palabras de contenido en cualquier idioma se verifica el criterio de frecuencias diferenciadas (Zipf 1949). Justamente, desde un punto de vista teórico es sabido que las palabras funcionales tienden a ocurrir en los contextos de las palabras de contenido con cierta predictibilidad (Redington et al. 1998), articulando su significado bajo la luz de diversas presentaciones lingüísticas (por ejemplo, ‘el hombre con auto’, ‘el hombre sin auto’, ‘el hombre detrás del auto’, ‘el auto del hombre’, etc.). “In order to gain some intuition regarding why distributional information is more useful for content words than for function words, consider the kinds of contexts in which each will appear. Content words will tend to have one of a small number of function words as their context. Although content words are typically much less frequent, their context is relatively predictable. Function words, on the other hand, are much more frequent, but will tend to have content words as their context. Because there are many more content words, the context of function words will be relatively amorphous. As the measure of similarity exploits regularities in the distribution of contexts, those words with predictable contexts will be clustered together much more accurately.” [Redington et al. 1998:456] Esta convergencia de propiedades nos obliga a dirigir nuestra atención hacia la distinción entre palabras funcionales versus palabras de contenido como un criterio de selección “natural” de cues y palabras target, respectivamente.

74 6. Nuestro experimento Etapa 1 Identificación de cues: Ley de ZipfTécnicas de clustering para inducción de categorías sintácticas en español Etapa 1 Identificación de cues: Ley de Zipf La Ley de Zipf resulta útil como una descripción básica de la frecuencia de distribución de las palabras en los lenguajes naturales: hay unas pocas palabras muy comunes (generalmente, palabras funcionales), una cantidad media de palabras de frecuencia intermedia y un gran número de palabras de baja frecuencia (generalmente, palabras de contenido). De este modo, es dable suponer que la principal característica de las palabras funcionales es su mayor frecuencia en corpora masivos. La base léxica común de cualquier texto, independientemente de la temática o de la estilística, termina aislando las palabras funcionales a lo largo de corpora masivos balanceados. Esto se verificará en cualquier muestra masiva de texto suficientemente representativa.

75 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 1 Identificación de cues: punto de corte entre palabras funcionales y de contenido: ver archivo Brown_corpus.xls (ver Tabla 20 en Tesis) A modo de observación empírica de las distribuciones predichas por la Ley de Zipf, nótese cómo las palabras pertenecientes a los primeros 50 rankings del DFP cubren el 40% del corpus con apenas 55 types (palabras), que son apenas el 0,7% de la diversidad léxica del corpus. En el otro extremo, las palabras que ocupan los últimos rankings de frecuencia (del 100 al 113) tienen la misma cobertura aproximadamente (39%) pero representan el 94,6% de la diversidad léxica del corpus. Unas 5000 palabras (types), desde el type ubicado en la posición 2398 hasta el type 7559, son hapax legomena (una única ocurrencia, en el ranking 113) o dis legomena (dos ocurrencias, en el ranking 112), con lo cual pueden ser consideradas eventos dispersos. Resulta evidente que, si es que existe un punto de corte entre el ordenamiento por frecuencia en primer lugar de las palabras funcionales y luego las palabras de contenido, dicho punto de quiebre puede ser calculado en base a las propiedades distribucionales del corpus. En este caso, tal punto de quiebre se ubicaría en algún lugar de los rankings 50 a 100. No obstante, ese tramo del ranking muestra una ocurrencia indiferenciada de palabras funcionales y palabras de contenido. En este experimento exploratorio, tal coexistencia indiferenciada se debe a las dimensiones aún reducidas del corpus. Function words Content words & very low freq 50% 5% 45% Word tokens in corpora 2% 98% Types

76 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 1 Identificación de cues: punto de corte entre cues y target Para explorar las propiedades distribucionales de las palabras funcionales y su importancia como cues identificatorias del contexto de uso de las palabras de contenido recurriremos al algorimo de identificación de cues de Elghamry (2004): “A first approximation to this procedure can make use of the frequency of certain elements or features in the input. Accordingly, a cue can be any member of the set of the highly frequent elements in the input. Consequently, function words, stress, and silence as indicated by utterance boundaries can be possible cues. Utterance boundaries are cues by definition since they indicate the beginning and end of some constituents. Function words are highly frequent in the input, which, among other features, makes them stand out in the input. For that reason, some of the learning methods discussed in previous chapters have used these words as cues.” [Elghamry 2004:81-82] “The approximate method proposed here makes a direct use of the highly frequent words in a corpus on the assumption that these words would provide information about the distributional properties of other words in the corpus. […] The core of this method is to find the smallest subset of words in the corpus that co-occur with a number of words that converges to an order of the number of word types in that corpus. […] It is expected that higher orders of approximation should give more fine-grained information about the distributional properties of the words in the corpus.” [Elghamry 2004:83-86]

77 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 1 Identificación de cues: punto de corte entre cues y target A partir de ese punto es dable pensar que una palabra en el DFP tiende a comportarse más como una palabra de contenido (con contexto predecible) que como una palabra funcional (con contexto impredecible). Para ilustar el poder empírico de la heurística de corte, considerando hasta el punto de corte en la palabra de orden 106 del DFP, la cobertura es en types de un 85,5% del corpus ( types en la bolsa de palabras sobre ), lo cual valida por completo el enfoque: estas 106 cues detectadas son vecinas inmediatas (a uno u otro lado) para al menos un 85,5% de las palabras (types) del corpus.

78 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 2 Reducción de dimensionalidad: Técnicas algebraicas descartadas SVD o PCA Estas técnicas explotan propiedades algebraicas de una matriz de vectores. Estaríamos postulando la posibilidad de recortar dimensionalidades de las cues en función de sus respectivos valores de ocurrencia con palabras target en un corpus determinado (los valores de los vectores) y no en función de ciertas propiedades intrínsecas de dichas palabras marca (cues). Esto resulta más evidente todavía en el caso de PCA, técnica cuya aplicación requiere de la construcción vectorial del espacio dimensional bajo la forma de una matriz en forma previa a su reducción, lo cual parece contradecir la plausibilidad psicolingüística de mecanismos generales de aprendizaje disponibles para el adquiriente (Pinker 1979) durante el proceso ontogenético de adquisición de la habilidad temprana de categorización de palabras.

79 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 2 Reducción de dimensionalidad: Criterio lingüístico por MI Investigar la existencia de alguna propiedad intrínseca en las marcas (cues) que pudiese ser aprovechada para una reducción de la dimensionalidad más “lingüísticamente motivada”. Nuestra intuición apuntaba a una diferenciación en las relaciones bigrámicas a un lado y a otro en las distribuciones cue-target y target-cue, motivada en la noción de marcación (Lorenzo y Longa 1996) y de expansión lineal de las gramáticas de los lenguajes naturales (Ćavar et al. 2004; Ćavar 2010). Esta idea de marcación o informatividad hacia la derecha o hacia la izquierda puede ser matemáticamente computada a partir de la información mutua (Shannon 1948) de una palabra respecto de cada uno de sus vecinos en un corpus. “In other words, local MI minima in a token sequence intuitively seem to correspond to a situation where one token does not contribute a lot about its neighboring token. This is what we expect to find when a PoS-tag to the respective side does not restrict the choice of PoS-tokens due to the lack of syntactic category or semantic selection. […] From an empirical perspective, one might expect that the MI score for a sequence of PoS-tokens Article Noun is much higher then for example for a sequence Noun Verb, given that in ca. 80% of the cases an article is followed by a noun in any common English text corpus, while the observed probability of a noun being followed by a verb is significantly smaller.” [Ćavar 2010: ] “If we extend this concept of restrictive relation or selection to the lexical level, we might come to similar conclusions. The occurrence of the article the makes native speakers of English expect a noun to appear in the immediate local context, following the article. They would probably not have a clear intuition about some concrete noun to follow, i.e. they tend to have categorial intuitions associated with concrete lexical forms. On the other hand, our intuition about the preceding context of ‘THE’ seems to be rather deficient. We can test this for example in cases where the preceding word was rendered incomprehensible using noise.” [Ćavar 2010:398]

80 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 2 Reducción de dimensionalidad: Criterio lingüístico por MI

81 6. Nuestro experimento Etapa 3 Construcción del espacio vectorialTécnicas de clustering para inducción de categorías sintácticas en español Etapa 3 Construcción del espacio vectorial 1000 palabras target que abarcan 2/3 partes del corpus (1,2 millones de tokens) 1000 vectores de 106 dimensiones con la frecuencia absoluta de ocurrencias de bigramas cue-target o target-cue según corresponda La plausibilidad de la habilidad temprana para reconocer frases fonológicas por parte de los adquirientes de un lenguaje natural ya ha sido explicada en detalle anteriormente (Mehler et al. 1998; Jusczyk et al. 1999; Christophe et al. 2008) y resulta un gran aporte a los experimentos de clustering tradicionales, los cuales, en el mejor de los casos, sólo consideraban el límite de las oraciones (Redington et al. 1998; Clark 2002). Nuestro modelo de relaciones bigrámicas resulta así más adecuado descriptiva y explicativamente, ya que la determinación de la ocurrencia del POS-tag de un token en función de su contexto inmediato no suele extenderse más allá de la frase fonológica (Balbachan y Dell’Era 2010; Ćavar 2010) -la única excepción sería el uso de la ‘,’ en enumeraciones -véase concepto de no-constituyente (dis-tituent) en Ćavar (2010).

82 6. Nuestro experimento Etapa 3 Construcción del espacio vectorialTécnicas de clustering para inducción de categorías sintácticas en español Etapa 3 Construcción del espacio vectorial A lo largo de casi un centenar de miles de oraciones es esperable que los perfiles distribucionales (vectores de 106 dimensiones) de las palabras target sean muy significativos. En este ejemplo del vector de la palabra target ‘embargo’, obsérvese que la dimensión 29º tiene un pico claro de 875 ocurrencias bigrámicas entre tal cue (a derecha) y la palabra ‘embargo’. Tal como se indica en la Tabla 22, la dimensión 29º es la palabra ‘sin’. A su vez existen algunas ocurrencias marginales gramaticales en la dimensión 11º del vector (‘un embargo’) y otras a izquierda de las cues, cuya posible explicación sea la falta de puntuación para ejemplos como “sin embargo, tanto…”, “sin embargo, Ana…” (con 2 ocurrencias en la dimensión 105º); pero en su enorme mayoría, el perfil distribucional de ‘embargo’ respecto de cada una de las 106 cues es totalmente identificatorio del tipo de palabra, a tal punto que luego veremos en la salida de clusters que se trata de un objeto apartado (outlier) en el espacio vectorial, constituyendo un cluster de miembro único y, por lo tanto, clase indecidible.

83 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 4 Clustering K-means iterativo: modificaciones al algoritmo original Nuestra implementación de clustering K-means incluye algunas modificaciones con el fin de analizar las distintas distribuciones posibles sobre el mismo set de los 1000 vectores de 106 dimensiones (cues). Este proceso de historización del agrupamiento en clusters permitirá sacar algunas conclusiones acerca de la consolidación de las diversas particiones más homogéneas y posibilitará una evaluación mucho más detallada de la salida: Comenzar por ubicar 2 centroides al azar (ciclo K=2). Calcular la distancia euclideana de cada uno de los objetos del espacio vectorial a dichos centroides y asignarlos a uno u otro en función de la distancia mínima. Computar el error de ciclo como la sumatoria de las distancias euclideanas a sus respectivos centroides de todos los vectores de cada cluster. El error de ciclo no necesariamente se corresponde con la adecuación de la distribución en términos de las categorías inducidas, por lo que no es un criterio de finalización confiable –es decir, siempre irá disminuyendo con cada ciclo nuevo que “acomode” mejor los vectores, dada la disponibilidad de más centroides para formar clusters. Comenzar una nueva iteración con un nuevo cluster (K = K+1), inicializar los correspondientes centroides al azar y reasignar los vectores a los nuevos centroides. Recalcular centroides para los nuevos clusters y el nuevo error de ciclo. Iterar el algoritmo desde el paso 2) hasta que el error de ciclo de una nueva asignación sea mayor que el de la iteración actual o hasta que se alcanza el ciclo K= 106 (número de cues).

84 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Etapa 4 Clustering K-means iterativo: importancia del centroide En cada ciclo adicionalmente computamos la ubicación del centroide de cada cluster como una forma de representar cuán cercanos o apartados están los clusters entre sí. Esta información será aprovechada a la hora de justificar el agrupamiento de clusters (merging) en hiperclusters. El centroide de un cluster en un ciclo dado proporciona una interesante caracterización de los miembros del cluster respecto de las ocurrencias bigrámicas entre las cues y dichos miembros hacia un lado u otro del contexto. Nótese que la granularidad en el agrupamiento nos permite inferir que estos cuatro sustantivos no sólo son singulares, no sólo son masculinos, sino que lo más importante es que el agrupamiento dio con una particularidad aún más refinada para este grupo, la cual los aparta de otros grupos de sustantivos singulares masculinos: constituyen giros lingüísticos adverbiales encabezados por ‘al’ (‘al fin y al cabo’, ‘al final’, ‘al principio’). Tómese en cuenta la prevalencia en la ubicación del centroide que aporta al grupo la dimensión 20º (‘al’-), por mucho en primer lugar, y en menor medida de la dimensión 4º (‘el’-) en segundo lugar, muy por arriba de las otras dimensiones. Este análisis justifica la intuición de que el centroide representa bastante bien a los miembros pertenecientes al cluster; aun cuando su ubicación en el espacio vectorial puede ser más representativa para algunos miembros más prototípicamente asignados al cluster que para otros más apartados del centroide. Por ejemplo, la dominancia de la dimensión (‘al’-) se aplica a todos los miembros, pero éste no es el caso de la segunda componente con mayor peso (‘el’-), cuya ocurrencia en bigramas ‘el cabo’ seguramente es menos frecuente que para los otros tres miembros del cluster.

85 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Antes de los resultados: corpus de referencia y cluster_tag Nos encontramos con algunas típicas dificultades para organizar la salida: 1) La falta de un gold standard o benchmark contra el cual comparar la distribución adecuada o no de clusters en cada ciclo. Si bien las categorías morfosintácticas de la gramática del español podrían parecer a simple vista como candidatas idóneas para tal función, los compartimentos estancos tradicionales del tipo de palabra morfosintáctica suelen estar motivados más por necesidades teóricas de la gramática antes que por los usos concretos de las palabras. Otro gran problema era cómo explotar la discriminación de una categoría sintáctica mayor (como verbos o sustantivos) en sus diferentes propiedades morfosintácticas derivadas (¿rasgos morfológicos?, ¿rasgos de subcategorización para los verbos?). 3) Por último, ¿cómo lidiar con las formas léxicas ambiguas en español? Aun cuando por decisiones de diseño nuestro algoritmo asignaba cada vector a una única clase, restaba considerar bajo qué criterio se realizaría la evaluación de tal asignación. En todo caso, ante una forma ambigua en sus etiquetas POS-tags cabría esperar que la interpretación más frecuente fuese la que prevaleciera (¿‘reparo’ sustantivo por sobre ‘reparo’ verbo, ‘como’ adverbio por sobre ‘como’ verbo por sobre ‘como’ conjunción, etc.?). La solución a todos estos problemas radica en encontrar un corpus anotado que pueda desambiguar formas léxicas según su POS-tag. CORPUS DE REFERENCIA

86 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Antes de los resultados: corpus de referencia y cluster_tag

87 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Antes de los resultados: corpus de referencia y cluster_tag Además, un corpus de referencia morfosintácticamente anotado cumple otra función importante: ofrece un perfil de frecuencias de ocurrencias de las etiquetas POS-tag para determinar el cluter_tag de cada cluster (qué tipo de miembros predominan, según tf-idf).

88 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Antes de los resultados: corpus de referencia y cluster_tag La primera impresión es que el cluster está dominado por los nombres propios (NNP). Sin embargo, según el corpus de referencia, la frecuencia relativa de los NNP (4,82%) es casi 25 veces la de, por ejemplo, los determinantes plurales DT2 (0,21%). Estas distribuciones no uniformes nos obligaban a cuantificar la incidencia del POS-tag de cada miembro en el POS-tag del cluster (cluster_tag) en función de una métrica conocida frecuencia de término–frecuencia inversa de documento (tf-idf). Si consideramos el POS-tag de cada miembro de un cluster como la “palabra” del documento que sería cada cluster en una colección que sería el corpus de referencia, entonces el POS-tag del cluster puede calcularse como:

89 6. Nuestro experimento Finalmente…resultados! Salida completa.txtTécnicas de clustering para inducción de categorías sintácticas en español Finalmente…resultados! Salida completa.txt

90 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Métricas de evaluación ¿propias de la distro o de un modelo HMM a partir de la distro? Algunos trabajos se enfocaron en la evaluación del mapeo de la distribución de clusters respecto de un set inicial de POS-tags (gold standard) (Redington et al. 1998; Wang 2012) y algunos otros evaluaron las clases inducidas a partir de la menor perplejidad posible de un modelo HMM entrenado en los bigramas o trigramas resultantes de tales POS-tags sobre las palabras del corpus (Brown et al. 1992; Martin et al. 1998; Clark 2000, 2002, 2003). El primer caso presenta el problema de la disponibilidad de un gold standard suficientemente adecuado y granular sobre el cual mapear la salida. El segundo caso no necesita de un gold standard, pero adolece de otro problema: la transformación de un criterio de adecuación de la distribución de clusters en un criterio de perplejidad markoviana asociada. Consideramos que este segundo caso de evaluación general, en última instancia, no está midiendo la adecuación de la inducción de las categorías de POS-tags sino en forma vicaria, tal como el mismo Clark (2002) lo reconoce: “Evaluation is in general difficult with unsupervised learning algorithms. Previous authors have relied on both informal evaluations of the plausibility of the classes produced, and more formal statistical methods. Comparison against existing tag-sets is not meaningful –one set of tags chosen by linguists would score very badly against another without this implying any fault as there is no ‘gold standard’. I therefore chose to use an objective statistical measure, the perplexity of a very simple finite state model, to compare the tags generated with this clustering technique against the BNC tags, which uses the CLAWS-4 tag set […] which had 76 tags. This is by no means an ideal measure, since the perplexity does not directly relate to what I am trying to achieve here.” [Clark 2002:66-69]

91 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Métricas de evaluación de un ciclo de clustering propias de la distribución A. Mapeo 1-to-1: el más intuitivo pero no muy viable por granularidad en la distribución. B. Mapeo many-to-1 e hiperclusters: el más usado en la bibliografía (ver detalle a continuación). C. Variación de la información (Meilă 2003): pérdida de infromación mutua (MI-loss) en ir de una distro de salida C a una distro de gold standard T. Problema: una escala de bits sin correlato conceptual claro. D. Medida F de sustitución (Frank et al. 2009): problema de marcos sustituibles, ocurrencia no muy alta de marcos completos. Requieren un gold standard “Ideally a substitutable frame would be created by sentences differing in only one word (e.g. “I want the blue ball.” and “I want the red ball.”) and the resulting cluster would contain the words that change (e.g. [blue, red]). However since it is almost impossible to find these types of sentences in real-world corpora, the authors use frames created by two words appearing in the corpus with exactly one word between (e.g. the —- ball). Once the substitutable clusters have been created, they can be used to calculate the [Sustitutable] Precision (SP), [Sustitutable] Recall (SR) and [Sustitutable] F-score (SF) of the system’s clustering.” [Christodoulopoulos et al. 2010:641]

92 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Métricas de evaluación mapeo many-to-1 e hiperclusters “Many-to-one mapping accuracy (also known as cluster purity) maps each cluster to the gold standard tag that is most common for the words in that cluster (henceforth, the preferred tag), and then computes the proportion of words tagged correctly. More than one cluster may be mapped to the same gold standard tag. This is the most commonly used metric across the literature as it is intuitive and creates a meaningful POS sequence out of the cluster identifiers. However, it tends to yield higher scores as |C| [number of clusters] increases, making comparisons difficult when |C| can vary.” [Christodoulopoulos et al. 2010:577] Más allá de la justificación metodológica, existe una inituición gramatical en adoptar este criterio de evaluación general de la distribución de un ciclo de clustering. Es de esperar que la ubicación de los clusters en el espacio vectorial refleje en alguna medida el criterio de agrupamiento de clusters en función de la similitud de los miembros preeminentes en cada uno de ellos. Así, pues a dos o más clusters del mismo tipo (indicado por el valor del cluster_tag en nuestra salida) corresponde un mismo hipercluster. Si un centroide representa prototípicamente la ubicación espacial de un cluster, al menos en cuanto a la concentración mayoritaria de sus miembros, entonces al computar la distancia euclideana de los centroides entre sí podemos darnos una idea de qué clusters están más cercanos o más alejados entre sí. Nuestra intucición metodológica de los hiperclusters podría verse justificada empíricamente si, por ejemplo, los clusters sustantivos singulares NN1 que conforman el hipercluster NN1 aparecen de algún modo más cercanos entre sí, en comparación con, por ejemplo los clusters que conforman el hipercluster verbos en infinitivo VVI.

93 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Métricas de evaluación mapeo many-to-1 e hiperclusters Notaremos que los clusters INDECIDIBLES (especialmente aquellos de un único miembro) son los objetos más apartados (outliers) del espacio vectorial. En algunos trabajos de clustering, se observó un especial esfuerzo en evitar los clusters de miembros únicos, penalizando incluso su inducción para la evaluación general de los resultados. Sin embargo, a la luz de la naturaleza lingüística de los objetos a clusterizar, la aparición de outliers conlleva otro significado. De hecho, el objeto más apartado de todos los otros centroides es el cluster 35 de un único miembro ‘embargo’, y la explicación de por qué este hallazgo de este cluster de un único miembro debería ser premiado antes que castigado ya fue esbozada. Para nuestra métrica de evaluación general iterativa de los ciclos de clustering, optaremos por una posición salomónica en cuanto a que los clusters INDECIDIBLES no serán considerados como motivo de premios ni de castigos: “Using classification data for the purpose of evaluating clustering results, however, encounters several problems since the class labels do not necessarily correspond to natural clusters. A typical example includes the clustering specific identification of outliers, i.e., of objects that do not belong to any cluster. In classification data, however, usually each object has assigned a certain class label. Thus, a clustering algorithm that detects outliers is actually punished in an evaluation based on these class labels even though it should be rewarded for identifying outliers as not belonging to a common cluster albeit outliers represent a genuine class of objects. Similar dificulties occur if the labeled classes split up in difierent sub-clusters or if several classes cannot be distinguished leading to one larger cluster. Consequently, in general, classes cannot be expected to exactly correspond to clusters.” [Färber et al. 2010:1-2]

94 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Métricas de evaluación mapeo many-to-1 e hiperclusters Por otro lado, es notable cómo la ubicación de los centroides en el espacio vectorial revela interesantes relaciones entre los clusters que conforman un hipercluster. Por ejemplo, los centroides de los cluster 1 y 79 están muy cercanos entre sí y ambos, a su vez, lo están respecto del centroide del cluster 41. Notablemente todos estos clusters de alta pureza agrupan sustantivos singulares (NN1) masculinos. En contraste, los clusters 38 y 13 también están casi pegados entre sí, agrupando sustantivos singulares (NN1) pero en este caso, femeninos. Si continuamos la exploración de las distancias euclideanas, observamos que el par de clusters 38 y 13 se unen luego al cluster 12. Aunque el cluster 12 está un poco más lejano en el espacio, esta unión no es llamativa ya que el cluster también agrupa NN1 femeninos. En este sentido, la distribución de clusters nos está indicando que en nuestro gold standard habría sido necesaria una separación de los NN1 en función del género del sustantivo. Habiendo justificado el concepto de hipercluster, resta entonces definir las métricas de evaluación general que utilizaremos bajo este criterio de agrupamiento de clusters.

95 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Evaluación iterativa de todos los ciclos de clustering con la métrica many-to-1 En cada ciclo de clustering evaluaremos la medida F para cada uno de los 16 POS-tags que se inducen en el experimento –únicamente dejamos de lado la evaluación de algunos POS-tag marginales como REL o AJC, que sólo fueron inducidos muy intermitentemente en uno o dos ciclos y en algún cluster muy poco denso (de pocos miembros). A diferencia de otros experimentos que se centraron exclusivamente en las palabras de contenido (Vlachos et al. 2009) o en las palabras funcionales (Wang 2012), en nuestro experimento veremos cómo son inducidos exitosamente tanto POS-tags típicamente de contenido como POS-tags típicamente funcionales en estas 16 categorías de hiperclusters. Apelaremos a las dos métricas clásicas para medir la efectividad de un sistema: Precisión P, que toma en cuenta falsos positivos FP (Precision) y Cobertura C o Exhaustividad, que toma en cuenta falsos negativos FN (Recall o Completeness). Como estas dos métricas deben actuar armónicamente para que la efectividad del sistema sea alta -de poco sirve un sistema que sea extremadamente preciso en sus juicios (alta P), pero que actúe muy raramente (baja C), y, a la inversa, lo mismo sucedería con un sistema que emite juicios de pertenencia siempre (alta C) pero se erquivoca mucho (baja P)-, adoptaremos el promedio armónico entre ambas métricas, conocido como medida F (F-score)

96 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Evaluación iterativa de todos los ciclos de clustering con la métrica many-to-1 Si bien el corte inicial era de 1000 palabras target, 89 de esas palabras correspondían a categorías morfosintácticas marginales: categorías funcionales de poquísimos miembros y de prevalencia intermitente en los clusters (en muy aisladas ocasiones): REL, AJC, CJC, CJS, etc. Las restantes 911 palabras target, entonces, se distribuyeron entre 16 categorías de inducción casi permanente a lo largo de todo el experimento, con elevados valores de pureza consolidados a partir de los ciclos medios

97 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Evaluación iterativa de todos los ciclos de clustering con la métrica many-to-1 En cada ciclo calculamos Precisión, Cobertura y medida F para cada uno de los 16 POS-tags, prevalezcan o no como el cluster_tag, en cada uno de los hiperclusters inducidos. Sobre estas 16 medidas F calculamos el promedio común y el promedio ponderado (con los totales de TP y FP en cada ciclo). Es de destacar que a partir de los ciclos medios (ciclo 52 en adelante), las medidas F de la mitad de los POS-tag se presentan consolidadas en valores relativamente estables, especialmente para las categorías mayores de sustantivos y verbos (NN1, NN2, VVZ, VMZ, VVI, VVN). Esto se aprecia en los gráficos de la Figura 28 como líneas “planchadas” que no fluctúan demasiado, lo cual significa que a partir de cierto momento de la “historización” de la inducción, las clases están mayormente consolidadas en cuanto a la pertenencia de sus miembros (con mínimas fluctuaciones). Esta convergencia en las distribuciones de los hiperclusters otorgaría una mayor robustez a nuestro enfoque, ya que no sería necesario postular un parámetro inicial de K clusters, para incializar el modelo, en virtud de la iteración convergente a partir de los ciclos medios. Este punto de consolidación de los ciclos de agrupamiento dependería exclusivamente de la cantidad de cues identificadas en el corpus. Esto reforzaría la plausibilidad algorítmica del modelo, en tanto no demandaría de un mecanismo de evaluación basado en mínimos o máximos locales sino que la mera iteración convergería a distribuciones consolidadas.

98 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Distribución óptima en ciclo 87: análisis detallado

99 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Discusión de los resultados: consideraciones cuantitativas y cualitativas Todas las categorías sintácticas mayores fueron inducidas con un alto grado de pureza. Se observan refinamientos granulares en rasgos de género y número (para sustantivos) y en otras caracterizaciones morfosintácticas (verbos modales VMZ vs. verbos léxicos VVZ). 2) Al igual que en Redington et al. (1998), las categorías sintácticas mayores, coincidentes con palabras de contenido (verbos y sustantivos), reportan medidas F altísimas, del orden del 80% y hasta 90%. 3) En el otro extremo, uno de los hiperclusters con menor medida F (40,7%) son los adverbios (AV0). Este grupo quedó confinado a un cluster único y masivo de 95 miembros muy heterogéneos, con objetos claramente marginales (caracteres únicos como ‘d’, ‘p’, ‘v’, etc.). Como reporta Nath et al. (2008), es normal que en el clustering partitivo quede en cada ciclo uno o dos clusters masivos que actúan como receptáculo indiferenciado de objetos del espacio vectorial. Posiblemente éste sea el caso. 4) Si bien los adjetivos presentan medidas F bajas (aprox. 40%), en muchos casos el refinamiento por cluster es sumamente interesante. Obsérvese por ejemplo el cluster 3, cuyos miembros resultan ser adjetivos que en general son usados con una proposición (“es preciso que…”, “es necesario que…”, etc.). 5) En todos los casos, es notable la consolidación de los agrupamientos a partir de los ciclos medios (ciclo 52 en adelante).

100 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Discusión de los resultados: comparación con baseline

101 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Discusión de los resultados: comparación con estado del arte Comparar distintos experimentos de clustering no resulta una tarea sencilla. La variación en los distintos escenarios de objetos a ser clusterizados, para distintos idiomas e, incluso, con diferentes métricas nos obliga a ser cuidadosos con cualquier afirmación surgida de la mera comparación de resultados. En principio estamos muy interesados en compararnos con el experimento de Redington et al. (1998), cuyo trabajo es el que más se asemeja al nuestro por las metodologías aplicadas en el input a tratar, en el algoritmo de clustering y en la evaluación de los resultados Recordemos que en lugar de la medida F, Redington (1998) calculan la informatividad como una forma de sopesar a la vez los falsos positivos y los falsos negativos. No obstante, a partir de los valores de Precisión P (Precision, o como se denomina erróneamente en ese trabajo, Accuracy) y Cobertura C (Completeness) que habían surgido del experimento 3 de Redington estamos en condiciones de calcular las medidas F para el total (Overall) y así compararla con nuestra efectividad de 0,69. El valor de medida F total para Redington es de 0,57 es decir, 12 puntos porcentuales por debajo de la efectividad de nuestro sistema.

102 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Discusión de los resultados: comparación con estado del arte En comparación con otros trabajos del estado del arte, nuestro experimento reporta una efectividad menor, aunque con valores muy cercanos, como en el caso de Clark (2003) con medida F de 0,724 para el inglés o el de Berg-Kirkpatrick et al. (2010) con medida F de 0,755 para el inglés –este último trabajo no contempla una modelización psicolingüísticamente plausible de los PLD No resulta un detalle menor que nuestro experimento esté enfocado al español. En efecto, un lenguaje con libre orden de constituyentes sintácticos podría atentar contra una buena perfomance de las técnicas distribucionales de inducción (Clark 2002). Por otro lado, si bien esta desventaja podría ser mitigada con una disponibilidad mayor de información morfológica previa para la tarea de categorización en español por sobre aquélla disponible para el inglés, nuestro experimento no contemplaba el tratamiento de dicha infromación morfológica plausiblemente disponible. Existen muy pocos trabajos de inducción de POS-tag en español. Para el caso, Graça et al. (2011) adaptaron los algoritmos clásicos (Brown et al BROWN y Clark 2002 CLARK5 y Clark 2003 CLARK10 en Tabla) a nuestro idioma, reportando medidas F sensiblemente menores que aquéllas para el inglés en el criterio many-to-1. Así pues, si la comparación se hace en base al español, nuestro experimento reportaría una efectividad equiparable a la de los mejores trabajos clásicos del campo.

103 6. Nuestro experimento Técnicas de clustering para inducción de categorías sintácticas en español Discusión de los resultados: plausibilidad psicolingüística de la modelización Recapitulando todo lo expuesto hasta ahora, podemos consignar que nuestro experimento reporta exitosamente la viabilidad de inducir categorías morfosintácticas a partir de la información distribucional de los PLD mediante un mecanismo general de aprendizaje, bajo las siguientes dos premisas: 1) Habilidad temprana para reconocer palabras y segmentar oraciones y frases fonológicas (Mehler et al. 1998; Jusczyk et al. 1999). Evidencia de disponibilidad a partir de los 10 meses. 2) Identificación de las cues (mayormente palabras funcionales) sin necesidad de una tipología diferenciada (no importa si son preposiciones, pronombres o incluso palabras de contenido). Aunque Wang (2012) sostiene que las palabras funcionales pueden estar representadas en forma temprana en el léxico de un modo abstracto, identificadas a partir de indicios prosódicos pero sin acceso a su significado o tipología, en nuestro experimento basta con su reconocimiento como marcas muy frecuentes en los PLD y sus propiedades articulatorias (pivot) respecto de las palabras target. (Elghamry 2004). Evidencia de disponibilidad a partir de los 14 meses. Estas condiciones están plausiblemente dadas incluso bastante antes de la explosión léxica (vovabulary spurt) (Dromi 1987) que se da alrededor de los dos años y ciertamente para los 15 meses en donde se verifican los primeros juicios de categorización (Shi et al. 1999), por lo que nuestro algoritmo resulta compatible con la evidencia empírica psicolingüística. Lo que demuestra nuestro algoritmo, entonces, es la suficiencia de los PLD mismos para aportar la información necesaria en el proceso de categorización de palabras, sin necesidad de postular conocimiento innato específico de dominio.

104 6. Nuestro experimento Trabajo a futuro: Conclusión de la sección 6Técnicas de clustering para inducción de categorías sintácticas en español Trabajo a futuro: Conclusión de la sección 6 1) Existe una gran área de mejora del experimento en relación con su escalabilidad. Para ello, sería fundamental ampliar el corpus de PLD a decenas de millones de tokens, en función de las cantidades que se manejan en trabajos más abarcativos (Clark 2002). A su vez, sería importante ampliar el corpus de referencia para la desambiguación POS-tag y mejorar las anotaciones manuales del mismo. 2) Por el lado algebraico de la modelización del espacio vectorial se podría experimentar con escenarios de decisiones matemáticas diversas, como por ejemplo la normalización de los valores de frecuencia absoluta de las relaciones bigrámicas que componen los vectores o el cambio del criterio de similitud entre objetos (distancia Manhattan por distancia euclideana). 3) Posiblemente la línea de investigación más desafiante tenga que ver con una reconsideración de los indicios facilitadores del clustering, en cuanto a considerar información morfológica previa a la categorización (Clark 2003). En los trabajos actuales no hay un claro consenso acerca de si la información morfológica es plausiblemente un posible input para la categorización, un producto de la misma o incluso parte del mismo proceso de categorización (Clark 2002, 2003). En todo caso, como mencionamos en las decisiones de diseño de nuestro experimento, todas estas facilitaciones adicionales son una demostración a fortiori del enfoque.

105 7. Continuación del experimento hacia una sintaxis rudimentariaTécnicas de clustering para inducción de categorías sintácticas en español 7. Continuación del experimento hacia una sintaxis rudimentaria

106 7. Continuación del experimentoTécnicas de clustering para inducción de categorías sintácticas en español Hacia una sintaxis rudimentaria Si bien nuestro experimento ha suministrado evidencia contundente de la viabilidad de modelos que recurren a las técnicas de clustering en el marco del paradigma estadístico de investigación de la lingüística computacional, el objetivo a largo plazo de estos experimentos no es el agrupamiento en categorías morfosintácticas en sí mismo, sino la posibilidad de inducir una gramática completa a partir del mismo (Clark 2002; Balbachan y Dell’Era 2010). Aunque reconocemos que esta meta de largo plazo es por demás ambiciosa para el estado de arte actual de la disciplina, en nuestra tesis describimos sucintamente cómo podría aprovecharse la salida del experimento de categorización en un eventual pipeline de inducción de sintaxis rudimentaria.

107 8. Conclusiones generalesTécnicas de clustering para inducción de categorías sintácticas en español 8. Conclusiones generales

108 8. Conclusiones generalesTécnicas de clustering para inducción de categorías sintácticas en español 1) Los experimentos detallados en esta tesis nos revelan una importante veta de indagación científica que obliga a replantearse cuestiones tan sensibles para la lingüística como la naturaleza del lenguaje y los mecanismos de adquisición del mismo, a la luz de las promisorias técnicas de aprendizaje de máquina y de los procesos de inducción de gramáticas. 2) El progreso de las técnicas estadísticas y el avance de las investigaciones sobre corpora abarcativos revelan que incluso los más simples mecanismos estadísticos pueden contribuir al esclarecimiento del proceso de adquisición del lenguaje.  En particular, el conjunto de marcas e indicios provistos por la información distribucional constituye una herramienta válida para la inducción de juicios acerca de la pertenencia de palabras a categorías morfosintácticas. Hemos demostrado empíricamente la estrecha correlación entre palabras cue vs. palabras target, distinción operativamente homologable a las nociones lingüísticas de palabras funcionales vs. palabras de contenido, y hemos señalado el importante papel que podrían desempeñar dichas palabras funcionales en la adquisición del lenguaje, aunando las respectivas agendas de investigación de la lingüística computacional y de la psicolingüística. 3) Resulta imperioso situar este tipo de investigaciones en el marco más general de un proyecto de inducción integral de sintaxis. El aprendizaje no supervisado de sintaxis o, en otras palabras, el problema de la inducción de una gramática a partir de un corpus sin anotaciones, todavía presenta interesantes desafíos desde el punto de vista de la lingüística teórica y de sus aplicaciones prácticas.

109 8. Conclusiones generalesTécnicas de clustering para inducción de categorías sintácticas en español 4) Aunque no demostramos necesariamente que el mecanismo por el cual se adquiere una gramática de un lenguaje natural involucre técnicas de clustering, sí demostramos la invalidez del APS en cuanto a que los PLD son suficientemente ricos para inducir una gramática formal (al menos, las categorías POS-tags) únicamente a partir de la información distribucional. Asimismo, dirigimos nuestra atención al debate epistemológico en torno del APS, tratando de clarificar confusiones generalizadas en cuanto a los mecanismos lógicos inductivos que podrían actuar como el sustrato cognitivo de los mecanismos generales de aprendizaje que modelizamos en nuestra investigación. 5) Los investigadores del campo reconocen que es necesaria una mayor evidencia translingüística que apoye la plausibilidad psicolingüística de un aprendizaje general no supervisado de una gramática formal a partir de técnicas estadísticas. En la actualidad no existen trabajos que se hayan propuesto probar tales enfoques para la inducción integral de sintaxis en lenguas flexivas y con orden libre de constituyentes como el español. El objetivo final de nuestro trabajo a futuro será aportar dicha evidencia translingüística, estudiando la factibilidad de inducir fenómenos sintácticos del español mediante técnicas estadísticas a partir de corpus no estructurado y modelos formales de aprendizaje no supervisado. 6) Aun así, en nuestra investigación logramos adaptar al español con éxito los enfoques de los trabajos clásicos del campo, con el valor añadido de haber propuesto mejoras sustanciales en la plausibilidad psicolingüística de la hipótesis -por ejemplo, el criterio de identificación de cues basados en la informatividad y propiedades distribucionales de las palabras más frecuentes -, compatibilizando así el mecanismo de aprendizaje general no supervisado de la modelización con el proceso ontogenético de adquisición del lenguaje.

110 Una reflexión final Técnicas de clustering para inducción de categorías sintácticas en español Consideramos entonces que el mérito de la presente tesis es abarcar modelos de inducción de fenómenos sintácticos que puedan aportar renovada evidencia al debate acerca de la adquisición del lenguaje. En última instancia, la evidencia empírica deberá ser refrendada por la neurología o las ciencias cognitivas, pero la plausibilidad de dicha evidencia a partir de una modelización efectiva es claramente un asunto para la agenda actual de la lingüística computacional. “In fact, recent experimental research in unsupervised learning […] indicates that it is possible to achieve accuracy approaching the level of supervised systems. Of course, these results do not show that human language acquisition actually employs these unsupervised algorithms. However, they do provide initial evidence suggesting that weak bias learning methods may well be sufficient to account for language learning. If this is the case, then positing strong biases, rich learning priors, and language specific learning mechanisms requires substantial psychological or neural developmental motivation. The APS does not, in itself, support these devices.” [Clark y Lappin 2011:29] Muchas gracias por su paciente atención!

111 Técnicas de clustering para inducción de categorías sintácticas en españolTesis de doctorado – Fernando Balbachan Facultad de Filosofía y Letras – Universidad de Buenos Aires Julio 2014 Scientists typically don’t study the phenomenal world. That’s why they do experiments. Our phenomenal world is way too complex. If you took videotapes of what’s happening outside your window, the physicists and chemists and biologists couldn’t do anything with it. Noam Chomsky In God we trust, all others bring data. William Edwards Deming