LUNAR – Nous mètodes de traducció automàtica més eficient basat en millores dels sistemes neuronals

En marxa Looming Factory, una aliança estratègica liderada per la UPC per explorar noves tecnologies en la Indústria 4.0
setembre 15, 2020
Dues investigadores de la UPC creen una nova generació de malles quirúrgiques intel·ligents per curar hèrnies abdominals i inguinals 
juliol 22, 2020
04/09/2020

Amb el projecte Lifelong UNiversal lAnguage Representation - LUNAR s’investigaran diverses millores en els sistemes neuronals en què es basa la traducció automàtica des de l’any 2014. Aquest sistema, basat en l’aprenentatge profund (de l’anglès deep learning), va deixar enrere els sistemes de regles i l’estadístic en què es basava anteriorment. Els sistemes de regles necessitaven milers de regles i enormes diccionaris. Els sistemes estadístics necessitaven bancs de traduccions per a cadascun dels idiomes (dependència quadràtica).

Tot i que els sistemes neuronals també tenen aquesta dependència amb els bancs de traduccions, també ofereixen una alternativa a partir de la qual el sistema neuronal s’estableix un idioma intermig (com si fos una mena d’esperanto de naturalesa matemàtica) cap al qual i a partir del qual passen totes les traduccions. D’aquesta manera, tot el procés és més àgil (es passa a una dependència lineal) i de millor qualitat, en poder-se concentrar tots els esforços en la codificació i descodificació d’aquest idioma intermig.



No obstant això, aquest mètode ―que és el que fan servir els gegants de la traducció automàtica— presenta actualment algun inconvenient. Per exemple, en disposar d’un únic codificador i descodificador universal, els idiomes que han alimentat el sistema amb menys recursos es veuen incapaços d’obtenir traduccions tan riques com les que obtenen els idiomes amb més recursos. Es tracta de llengües minoritàries, o bé endèmiques de zones remotes on no s’ha produït una informatització tan completa de l’idioma.

Inclusivitat idiomàtica i traducció de veu

Concretament, el projecte LUNAR estudiarà una solució al problema dels idiomes infrarepresentats en les bases de dades de textos i àudios que alimenten el sistema. Tot establint codificadors i descodificadors específics per a cada idioma, l’objectiu és que la traducció des del llenguatge intermig sigui la més rica i complerta possible en qualsevol dels idiomes.

D’altra banda, el projecte LUNAR farà possible que aquest sistema també funcioni en la traducció automàtica de veu. Aquest aspecte serà sens dubte un dels més destacats, ja que aconseguir-ho amb èxit suposaria un gran avenç en aquest camp d’investigació (és una funcionalitat que ni els gegants de la traducció automàtica encara no han pogut aplicar).

L’ètica en els sistemes de traducció automàtica

Finalment, des del projecte LUNAR es pren consciència del grapat de biaixos que existeixen en les traduccions automàtiques actuals. Es tracta del biaix geopolític, que consisteix en la infrarepresentació de llengües com les africanes o les asiàtiques que, com s’ha esmentat, resulta en pitjors traduccions des d’aquests idiomes; el biaix de gènere, que s’absorbeix inevitablement dels textos i àudios a partir dels quals s’alimenta el sistema i que impliquen que, per exemple, la paraula neutra anglesa “nurse” sempre es tradueixi en femení i “doctor” en masculí; i el biaix corporatiu, provocat pel fet que moltes d’aquestes dades provenen de grans corporacions que d’alguna manera influeixen en el rang de vocabulari i el tipus d’informació que utilitza el sistema. Els resultats de LUNAR no ignoraran aquests biaixos, sinó que en la mesura que sigui possible es reportaran i es mitigaran.

Notícia relacionada: La investigadora de la UPC Marta Ruiz Costa-Jussà rep un ajut Starting Grant per estudiar un sistema de traducció automàtica inclusiva