1 Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions
2 Estructura de la xerrada Presentació Salvador Climent La TA no supervisada Joaquim Moré Aplicacions per a la gestió de la traducció a la universitat Antoni Oliver
3 Interlingua IN3 Estudis Filologia catalana Servei lingüístic UOC Infraestructures tecnològiques Desenvolupament Campus Virtual
4 El català al campus virtual Petit estudi estadístic: Fòrums d’Informàtica: Ús espontani del català: 69% El 43% d’aquests canvien al castellà quan contesten a missatges en aquesta llengua Aules de Doctorat: tot en castellà Perill: substitució gradual del català pel castellà les aules?
5 Interlingua Objectiu: que l’estudiant utilitzi la seva llengua independentment de la del destinatari; per tant, que disminueixi el perill de substitució del català a les aules. Com?: Traducció automàtica de missatges
6 Interlingua Traducció Automàtica: Textos 100% correctes Intervenció humana
7 Interlingua Emails Procés 100% automatitzat i en temps real Cap intervenció humana Detecció de llengua Llenguatge no restringit Innovacions ortogràfiques Creativitat lingüística Errors de competència i d’actuació Àmbits especialitzats Interferències lingüístiques
8 Interlingua: Tipologia de problemes Micro-avaluació: informació sobre les decisions que s’han de prendre, quins mòduls s’ha de construir o prioritzar per aconseguir un impacte més gran en la qualitat de la traducció
9 Interlingua: estratègia Nucli: Sistema TA existent (Comprendium/Incyta) Entorn Interlingua: Detecció de llengua Normalització i correcció del text Adaptació: combinació tècniques TA i TAO
10 Accions prioritàries Pre-edició automàtica Recuperació d’accents, Correcció d’errades, Normalització de la puntuació (espais després de coma, accents en lloc d’apòstrofs…), innovacions... Construcció de lexicons terminològics (i) del domini (ii) de la comunitat Memòries de traducció
11 Arquitectura final Missatge d’entrada Missatge de sortida Detector de llengua Sistema de TA Preedició automàtica Postedició automàtica Terminologia del domini Memòries de traducció Terminologia de comunitat
12 Arquitectura actual Missatge d’entrada Missatge de sortida Detector de llengua Sistema de TA Preedició automàtica
13
14 Interlingua Aplicacions per a la UOC TA a aules bilingües i sales consultors Catalunya/Iberoamèrica Corrector ortogràfic online d’emails Reutilització i combinació de tècniques per a la gestió de la traducció estàtica a la universitat
15 Estructura de la xerrada Presentació Salvador Climent La TA no supervisada Joaquim Moré Aplicacions per a la gestió de la traducció a la universitat Antoni Oliver
16 Reptes plantejats Impossibilitat d’una intervenció humana La comunicació per email s’ha de realitzar en temps real. No hi pot haver un treball de pre-edició i post-edició humana que faria més lent el procés. Especificitat del registre: llenguatge sense restriccions Us de llenguatge no normatiu (innovacions ortogràfiques, creativitat lingüística, errors ortogràfics, tipogràfics, gramaticals, etc.). No ens podem plantejar que els usuaris controlin la seva redacció. Problemes causats pel bilingüisme Missatges amb barreja català i espanyol. Interferència lingüística en mails monolingües causada pels diferents nivells de competència en qualsevol de les dues llengües. Contextualització de les traduccions Ambigüetats no resoltes (e.g: per => por/para); noms propis traduïts de forma inapropiada, etc.
17 Estudi sobre la qualitat de la traducció directa d’emails Sistema adoptat i evaluat: Comprendium - Incyta Evaluació en les dues direccions: SPA-CAT/ CAT-SPA 1240 frases tretes de 130 emails per cada direcció. Entorn escollit: Fòrum d’Informàtica
18 Conclusions de l’estudi CAT-SPA Important pes dels errors de competència de l’usuari Accentuació Confusió fonema-grafema (s/ss, o/u, l/l.l, etc.) Reproducció llengua parlada (e.g: escriguent, avere) Interferències amb el castellà (barbarismes, etc.) Les desviacions típiques del registre e-mail no tenen tanta incidència com els errors de competència Ortografia creativa (A10) Els errors d’actuació tampoc tenen tanta incidència com els errors de competència Confusió apòstrof/accent
19 Conclusions de l’estudi SPA-CAT Les desviacions típiques del registre e-mail tenen més incidència que els errors de competència de l’usuari Manca d’accentuació (el més freqüent) Alguns casos d’interferència amb el català però amb menor grau que en CAT-SPA.
20 Conclusions de l’estudi Problemes comuns en les dues direccions Problemes d’espaiat. Terminologia del domini no traduïda o mal traduïda. Terminologia pròpia de la comunitat no traduïda o mal traduïda. Ortografia creativa pròpia del registre e-mail (tod@s, A10) Ambigüetat lèxica
21 Exemple de traducció directa d’un email Hola de nou A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota manera m´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba. PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit? Be, A10. J. R. Estudiant de Sistemes Informatics Hola de nueve A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecen adeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversa simultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba. PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R. Estudiando de Sistemas Informatics be cordero adeqüats simultania devatre instalat es comú o es que soc abonat les lleis de Murphy se común o se que tronco abonado devatre donguès agradaría A10 seba m’agradaría...en fi excel excielo Hola de nou Hola de nueve la seva opinió al respecte su opinio al respeto conversa simultania Estudiant de Sistemes Informatics Estudiando de Sistemas Informatics...en fino
22 Mòduls de customització Pre-edició automàtica Tractament espais en blanc i signes de puntuació (espai després de coma, substitució accents per apòstrof, substitució ‘l.l’ per ‘l·l’, etc. ) Correcció ortogràfica Correcció d’errors típics: (e.g. *desde -> des de ; *dongués -> donés) Substitució de variants del registre per formes normatives (e.g: ‘A10’ per ‘adéu’; ‘pq’ per ‘porqué’, etc.).
23 Mail pre-editat automàticament Hola de nou. A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota manera m´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba. PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit? Be, A10. J. R. Estudiant de Sistemes Informatics Hola de nou. A veure si ara arriba be, He llegit els estatuts (només una vegada) i en general em semblen adequats. De tota manera m'agradaria que la gent que hi estigui interessada donés la seva opinió al respecte i s'haurien de debatre els articles (o no). Per tant crec que hauríem de debatre el tema en una conversa simultània (IRC, messenger... el que vulgueu) perquè tothom hi digui la seva. PD: Per altre banda estic escrivint això des de mozilla 1.1 i encara tinc problemes. No ho entenc. L'he instal·lat 3 vegades i només una ha funcionat tot i que he fet el mateix a cada instal·lació. Ara només resta mirar com ho faig pel portàtil... en fi us mantindré informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel pròpiament dit? Be, Adéu. J. R. Estudiant de Sistemes Informàtics no).Per tant m´agradaría m’agradaria es be conversa simultania conversa simultània devatre debatre donguès donés A10 Adéu seba seva
24 Comparació de les traduccions Hola de nueve.A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecen adeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversa simultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba. PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R. Estudiando de Sistemas Informatics Hola de nueve. A ver si ahora llega cordero, He leído los estatutos (sólo una vez) y en general me parecen adecuados. De todos modos me gustaría que la gente que esté interesada diera su opinión al respeto y tendrían que debatirse los artículos (o no). Por tanto creo que tendríamos que debatir el tema en una conversación simultánea (IRC, messenger... el{lo} que quiera) para que todo el mundo dé su opinión. PD: Para{por} otro lado estoy escribiendo eso desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. Lo{la} he instalado 3 veces y sólo una ha funcionado aunque he hecho el mismo a{en} cada instalación. Ahora sólo resta{quedar} mirar como lo hago para{por} el portátil... en fin le mantendré informados. Querría saber si se común o se que tronco abonado las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiamente dicho? Be, Adiós. J.R. Estudiando de Sistemas Informáticos no).Per tanto no). Por tanto m´agradaría me gustaría A ver si ahora llega cordero si se común o se que una conversa simultania una conversación simultánea se habrían de devatre tendríamos que debatir donguès diera A10 Adiós todo el mundo diga la seba todo el mundo dé su opinión Hola de nueve
25 Mòduls de customització (2) Construcció de lèxics Lèxic del domini: termes de l’especialitat o l’assignatura (e.g: excel). Lèxic de la comunitat lingüística: termes d’ús corrent en els emails i que fan referència a noms d’assignatures, departaments, etc. Construcció de memòries de traducció (e.g: hola de nou => hola de nuevo).
26 Mòduls de customització (3) Post-edició automàtica Resolució d’ambigüetats Suggeriment d’una traducció per una paraula que el sistema no ha traduït.
27 Estructura de la xerrada Presentació Salvador Climent La TA no supervisada Joaquim Moré Aplicacions per a la gestió de la traducció a la universitat Antoni Oliver
28 Aplicacions per a la gestió de la traducció a la universitat Eines de traducció assistida i automàtica Eines d’extracció automàtica de terminologia Eines d’alineació automàtica de documents Formats per a l’intercanvi TMX TBX XLIFF SRX
29 DODT Traducció
30 DO DT Traducció T. AutomàticaT. Assistida B.D.T. M.T. Tècniques d’extracció automàtica de terminologia Tècniques d’alineació automàtica Correcció Ortogràfica i Gramatical Correcció Ortogràfica i Gramatical Preedició Postedició QCQA Consistència Terminològica