La investigadora de la UPC Marta Ruiz Costa-Jussà recibe una ayuda Starting Grant para estudiar un sistema de traducción automática inclusiva

Mercabarna y la UPC crean una cátedra universitaria para luchar contra el desperdicio alimentario

septiembre 15, 2020

Aceleración de proyectos para empresas en el ámbito de la fotónica

octubre 1, 2020

Mercabarna y la UPC crean una cátedra universitaria para luchar contra el desperdicio alimentario

septiembre 15, 2020

Aceleración de proyectos para empresas en el ámbito de la fotónica

octubre 1, 2020

4/09/2020

La investigadora Marta Ruiz Costa-Jussà ha sido distinguida con ayuda Starting Grant del European Research Council (ERC) para explorar nuevos métodos de traducción automática de texto y voz. Con el proyecto LUNAR estudiará un sistema de traducción automática más eficiente que los actuales que ofrezca cualidades similares para lenguas mayoritarias y minoritarias.

Hace años que los diccionarios tradicionales han quedado obsoletos. Las nuevas tecnologías han suplantado su función y la han mejorado, ofreciendo consultas mucho más rápidas y completas. Del mismo modo, miles de traductores han visto cómo su profesión se ha transformado los últimos años. Se ha automatizado el proceso más pesado y farragoso de traducir largos textos y el talento humano se focaliza ahora en aspectos más técnicos y abstractos del lenguaje, de momento difíciles de comprender por las máquinas.

Los softwares de traducción automática hacen posible un acercamiento cultural sin precedentes, convirtiendo de forma casi instantánea textos y voz entre cientos de idiomas. No obstante, aún hay mucho margen de mejora. Desde 2002, la Universitat Politècnica de Catalunya · BarcelonaTech (UPC) es un referente de la mano de profesores de los departamentos de Teoría de la Señal y Comunicaciones y Ciencias de la Computación como José B. Mariño, José A. R. Fonollosa y Lluís Màrquez.

El proyecto LUNAR
Recientemente, la investigadora Marta Ruiz Costa-Jussà, del Departamento de Ciencias de la Computación, ha conseguido una ayuda de 1,5 millones de euros del Consejo Europeo de Investigación(ERC, por sus siglas en inglés) para desarrollar una investigación en esta línea. Ruiz Costa-Jussà ha coordinado con éxito otros proyectos nacionales e internacionales y ha recibido varios galardones como los Google Faculty Research Awards de 2018 y 2019.

Con el proyecto Lifelong UNiversal lAnguage Representation – LUNAR se investigarán varias mejoras en los sistemas neuronales en los que se basa la traducción automática desde el año 2014. Este sistema, basado en el aprendizaje profundo (del inglés deep learning), dejó atrás los sistemas de reglas y estadístico en que se basaba anteriormente. Los sistemas de reglas necesitaban miles de reglas y enormes diccionarios. Los sistemas estadísticos necesitaban bancos de traducciones para cada uno de los idiomas (dependencia cuadrática). Aunque los sistemas neuronales también tienen esta dependencia con los bancos de traducciones, ofrecen una alternativa a partir de la cual el sistema neuronal establece un idioma intermedio (como si fuera una especie de esperanto de naturaleza matemática) hacia el cual y a partir del cual pasan todas las traducciones. De esta forma, todo el proceso es más ágil (se pasa a una dependencia lineal) y de mejor calidad, al poderse concentrar todos los esfuerzos en la codificación y decodificación de este idioma intermedio.

Sin embargo, este método –que es el que usan los gigantes de la traducción automática– presenta actualmente algún inconveniente. Por ejemplo, al disponer de un único codificador y decodificador universal, los idiomas que han alimentado el sistema con menos recursos se ven incapaces de obtener traducciones tan ricas como las que obtienen los idiomas con más recursos. Se trata de lenguas minoritarias, o bien endémicas de zonas remotas donde no se ha producido una informatización completa del idioma.

Inclusividad idiomática y traducción de voz
El proyecto LUNAR estudiará una solución al problema de los idiomas infrarrepresentados en las bases de datos de textos y audios que alimentan el sistema. Estableciendo codificadores y decodificadores específicos para cada idioma, el objetivo es que la traducción desde el lenguaje intermedio sea lo más rica y completa posible.

Por otro lado, el proyecto LUNAR hará posible que este sistema también funcione en la traducción automática de voz. Este aspecto será sin duda uno de los más destacados ya que conseguirlo con éxito supondría un gran avance ya que se trata de una funcionalidad que los gigantes de la traducción automática aún no han podido aplicar.

La ética en los sistemas de traducción automática
Finalmente, desde el proyecto LUNAR se toma conciencia de los sesgos en las traducciones automáticas actuales. Se trata del sesgo geopolítico, que consiste en la infrarrepresentación de lenguas como las africanas o las asiáticas que, como se ha mencionado, resulta en peores traducciones desde estos idiomas; el sesgo de género, que se absorbe inevitablemente de los textos y audios a partir de los cuales se alimenta el sistema y que implican que, por ejemplo, la palabra neutra inglesa “nurse” siempre se traduzca en femenino y “doctor” en masculino; y el sesgo corporativo, provocado por el hecho que muchos de estos datos provienen de grandes que de alguna forma influyen en el rango de vocabulario y el tipo de información empleada por el sistema. Los resultados de LUNAR no ignorarán estos sesgos, sino que en la medida de lo posible se reportarán y se mitigarán.