DoblAI: IA per al doblatge fàcil i ràpid de contingut multimèdia

uPlayer: millora de l’experiència de reproducció de vídeos
febrer 2, 2026

02/02/2026

El grup de recerca AgroTech de la Universitat Politècnica de Catalunya – BarcelonaTech (UPC), juntament amb la seva spin-off Ugiat Technologies, han impulsat DoblAI, una plataforma d’IA que integra transcripció, traducció, subtitulació i doblatge de vídeo en un únic flux de treball. La solució, que fa servir tecnologia ‘deep learning’ i models de veu clonats o per defecte, està especialment pensada per al sector del periodisme i la comunicació.


En l’era digital, el contingut audiovisual s’ha consolidat com un dels formats clau per arribar a audiències globals. Els mitjans, departaments de comunicació i creadors de contingut afronten un repte creixent: produir videos accessibles i en múltiples idiomes sense incrementar costos ni allargar terminis. La transcripció manual, la traducció i el doblatge continuen sent processos lents i fragmentats, sovint externalitzats, que dificulten l’escalabilitat del contingut i la seva arribada a audiències internacionals. En aquest context, disposar d’eines que automatitzin aquests passos és clau per millorar l’eficiència operativa i la competitivitat. Tenir eines eficients per automatitzar aquests passos no només millora la qualitat de la difusió, sinó que també incrementa la competitivitat en mercats globals saturats per la informació.

DoblAI és un servei basat en intel·ligència artificial per a la transcripció, traducció, subtitulació i doblatge automàtic de vídeos. La plataforma permet pujar fitxers d’àudio o vídeo (wav, mp3, mp4) o bé treballar directament a partir d’enllaços de plataformes. A partir d’aquí, l’usuari selecciona l’idioma original i un o diversos idiomes de destinació, amb l’opció de generar només la transcripció, utilitzar veus estàndard o bé clonar la veu original dels parlants.

El sistema utilitza tècniques avançades d’anàlisi de vídeo i veu, combinant identificació de diferents parlants (Diarització), transcripció en idioma original,  traducció automàtica i síntesi de veu (TTS) per oferir un resultat integrat que facilita a periodistes, editors i comunicadors accelerar la producció de contingut accessible i multilingüe. La interfície web és intuïtiva i permet la revisió i edició de resultats abans de publicar, reduint la necessitat de processos manual intensius i integrant totes les etapes en una sola eina.

La solució integra tecnologies de reconeixement automàtic de la parla, traducció automàtica i síntesi de veu, amb funcionalitats avançades com la diarització de parlants (identificació de qui parla en cada moment, fins i tot amb veus superposades), la sincronització de veus doblades amb el temps original del discurs i la millora d’àudio per reduir soroll de fons. El sistema pot generar transcripcions i traduccions en més de 90 idiomes i doblatge en més de 40 llengües (en la versió demo el doblatge no està actualment integrat, però es pot demanar una demo).

Un editor web permet revisar i modificar els resultats: editar textos, ajustar temps, canviar veus o parlants i regenerar el doblatge. Finalment, l’usuari pot descarregar el vídeo o l’àudio doblat, així com subtítols en formats estàndard (VTT, SRT i TXT), tot plegat en un flux únic pensat per a professionals no tècnics, especialment periodistes i equips de comunicació.

El grup de tecnologies audiovisuals (AgroTech) de la UPC ha aportat expertesa en verificar el funcionament dels diferents blocs i identificar els models més apropiats. També ha col·laborat en altres tasques de recerca, com millorar les bases de dades per la detecció automática de idioma. S’han realitzat proves exhaustives del sistema en diferents escenaris de programes de TVE per tal de poder identificar les prestacions en funció del nivell de soroll ambient, persones parlant al mateix temps, etc. 

 La col·laboració amb l’spin-off Ugiat Technologies, ha estat clau per traslladar resultats de recerca a una solució aplicada amb impacte directe en el sector mediàtic.

Pressupost i finançamen

El projecte ha tingut una durada d’1 any (2023) i ha comptat amb un pressupost total de 30.000  €.



Projectes Relacionats