Centre d’innovació i Tecnologia BARCELONATECH

UN NOU DESAMBIGUADOR MORFOSINTÀCTIC PEL NOU DICCIONARI NORMATIU DEL CATALÀ

El Centre de Tecnologies del Llenguatge i de la Parla (TALP UPC) ha col·laborat amb l'Institut d'Estudis Catalans (IEC) en el desenvolupament d'un desambiguador que permet classificar morfològica i sintàcticament les paraules del corpus de referència del català modern, i esbrinar quin és el seu lema o representació canònica (la paraula que cerquem al diccionari). A partir del recull d’uns 10 milions de paraules en una gran base de dades de textos procedents de diferents fonts (llibres, novel·les, diaris...), el programa els categoritza de manera que els lexicògrafs poden establir els usos de les paraules, el significat que se’ls dóna habitualment, i les expressions que es fan servir, per a la confecció del diccionari normatiu del català modern.

Per aquest projecte TALP UPC ha utilitzat tecnologies lligades al processat del llenguatge que poden tenir aplicació també en sectors que maneguin grans quantitats d’informació documental com ara el sector sanitari, financer o la gestió d’emergències i serveis.