Enero 2016
El Centro de Tecnologías del Lenguaje y del Habla (TALP UPC) ha colaborado con el Institut d’Estudis Catalans (IEC) en el desarrollo de un desambiguador que permite clasificar morfológica y sintácticamente las palabras del corpus de referencia del catalán moderno, y averiguar cuál es su lema o representación canónica (la palabra que buscamos en el diccionario). A partir de la recopilación de unos 10 millones de palabras en una gran base de datos de textos procedentes de diferentes fuentes (libros, novelas, periódicos...), el programa los categoriza de forma que los lexicógrafos pueden establecer los usos de las palabras, el significado que se les da habitualmente, y las expresiones que se utilizan, para la confección del diccionario normativo del catalán moderno.
Para este proyecto, TALP UPC ha utilizado tecnologías relacionadas con el procesamiento del lenguaje que pueden también aplicarse a sectores que manejan grandes cantidades de información documental como el sector sanitario, financiero o la gestión de emergencias y servicios.