Con el proyecto Lifelong UNiversal lAnguage Representation – LUNAR se investigarán varias mejoras en los sistemas neuronales en que se basa la traducción automática des del año 2014. Este sistema, basado en el aprendizaje profundo (del inglés deep learning), dejó atrás los sistemas de reglas y estadístico en que se basaba anteriormente. Los sistemas de reglas necesitaban miles de reglas y enormes diccionarios. Los sistemas estadísticos necesitaban bancos de traducciones para cada uno de los idiomas (dependencia cuadrática).
Aunque los sistemas neuronales también tienen esta dependencia con los bancos de traducciones, ofrecen una alternativa a partir de la cual el sistema neuronal establece un idioma intermedio (como si fuera una especie de esperanto de naturaleza matemática) hacia el cual y a partir del cual pasan todas las traducciones. De esta forma, todo el proceso es más ágil (se pasa a una dependencia lineal) y de mejor calidad, al poderse concentrar todos los esfuerzos en la codificación y decodificación de este idioma intermedio.
Sin embargo, este método –que es el que usan los gigantes de la traducción automática– presenta actualmente algún inconveniente. Por ejemplo, al disponer de un único codificador y decodificador universal, los idiomas que han alimentado el sistema con menos recursos se ven incapaces de obtener traducciones tan ricas como las que obtienen los idiomas con más recursos. Se trata de lenguas minoritarias, o bien endémicas de zonas remotas donde no se ha producido una informatización completa del idioma.
Inclusividad idiomática y traducción de voz
Concretamente, el proyecto LUNAR estudiará una solución al problema de los idiomas infrarrepresentados en las bases de datos de textos y audios que alimentan el sistema. Estableciendo codificadores y decodificadores específicos para cada idioma, el objetico es que la traducción des del lenguaje intermedio sea lo más rica y completa posible en cualquier idioma.
Por otro lado, el proyecto LUNAR hará posible que este sistema también funcione en la traducción automática de voz. Este aspecto será sin duda uno de los más destacados ya que conseguirlo con éxito supondría un gran avance en este campo de investigación (es una funcionalidad que ni los gigantes de la traducción automática aún no han podido aplicar).
La ética en los sistemas de traducción automática
Finalmente, des del proyecto LUNAR se toma conciencia de los sesgos en las traducciones automáticas actuales. Se trata del sesgo geopolítico, que consiste en la infrarrepresentación de lenguas como las africanas o las asiáticas que, como se ha mencionado, resulta en peores traducciones desde estos idiomas; el sesgo de género, que se absorbe inevitablemente de los textos y audios a partir de los cuales se alimenta el sistema y que implican que, por ejemplo, la palabra neutra inglesa “nurse” siempre se traduzca en femenino y “doctor” en masculino; y el sesgo corporativo, provocado por el hecho que muchos de estos datos provienen de grandes que de alguna forma influyen en el rango de vocabulario y el tipo de información empleada por el sistema. Los resultados de LUNAR no ignorarán estos sesgos, sino que en la medida de lo posible se reportarán y se mitigarán.
Partners del Projecte
Vols saber més?
Projectes Relacionats
- El Grupo de Identificación por Radiofrecuencia y Electrónica Flexible (RFLEX) de la Universitat Politècnica de Catalunya - BarcelonaTech (UPC) participa en el proyecto TELEBREATH, con el objetivo de contribuir a una mejor atención a la demanda de cuidados de larga duración en colectivos vulnerables, tales como ancianos y personas dependientes.
- El Grup d'Identificació per Radiofreqüència i Electrònica Flexible (RFLEX) de la Universitat Politècnica de Catalunya - BarcelonaTech (UPC) participa en ETEXHEALTH. El projecte se centra en la cerca de solucions basades en l'aplicació de sensors tèxtils electrònics (e-textile) per monitorar les variables biomètriques del cos humà i l'evolució de malalties d'una manera mínimament invasiva.
- Un equipo multidisciplinario en el que participan el Servicio de Microbiología del Hospital Universitario Vall d' Hebrón, el grupo de investigación de Microbiología del Vall d'Hebron Instituto de Investigación (VHIR), el grupo de investigación en Biología Computacional y Sistemas Complejos (BIOCOM-UPC), el Grupo de Procesamiento de Imagen y Video (GPI) y el grupo de investigación de Tecnologías de Bases de datos y Gestión de la Información (DTMI) de la Universitat Politècnica de Catalunya - BarcelonaTech (UPC), y la Fundación Probitas, ha presentado un nuevo método diagnóstico para la malaria basado en inteligencia artificial.
- Un consorcio internacional de universidades, hospitales y empresas, liderado por el Centro de Desarrollo de Sensores, Instrumentación y Sistemas (CD6) de la UPC, está desarrollando nuevas tecnologías basadas en luz e inteligencia artificial para mejorar el diagnóstico de diversas enfermedades.