DoblAI: IA para el doblaje fácil y rápido de contenido multimedia

uPlayer: mejora de la experiencia de reproducción de vídeos
febrero 2, 2026

02/02/2026

El grupo de investigación AgroTech de la Universitat Politècnica de Catalunya – BarcelonaTech (UPC), junto con su spin-off Ugiat Technologies, han impulsado DoblAI, una plataforma de IA que integra transcripción, traducción, subtitulación y doblaje de vídeo en un único flujo de trabajo. La solución, que utiliza tecnología de deep learning y modelos de voz clonados o por defecto, está especialmente pensada para el sector del periodismo y la comunicación.


En la era digital, el contenido audiovisual se ha consolidado como uno de los formatos clave para llegar a audiencias globales. Los medios, departamentos de comunicación y creadores de contenido afrontan un reto creciente: producir vídeos accesibles y en múltiples idiomas sin incrementar costes ni alargar plazos. La transcripción manual, la traducción y el doblaje siguen siendo procesos lentos y fragmentados, a menudo externalizados, que dificultan la escalabilidad del contenido y su llegada a audiencias internacionales. En este contexto, disponer de herramientas que automaticen estos pasos es clave para mejorar la eficiencia operativa y la competitividad. Contar con herramientas eficientes para automatizar estos procesos no solo mejora la calidad de la difusión, sino que también incrementa la competitividad en mercados globales saturados de información.

DoblAI es un servicio basado en inteligencia artificial para la transcripción, traducción, subtitulación y doblaje automático de vídeos. La plataforma permite subir archivos de audio o vídeo (wav, mp3, mp4) o bien trabajar directamente a partir de enlaces de plataformas. A partir de ahí, el usuario selecciona el idioma original y uno o varios idiomas de destino, con la opción de generar únicamente la transcripción, utilizar voces estándar o clonar la voz original de los hablantes.
El sistema utiliza técnicas avanzadas de análisis de vídeo y voz, combinando la identificación de diferentes hablantes (diarización), la transcripción en el idioma original, la traducción automática y la síntesis de voz (TTS) para ofrecer un resultado integrado que permite a periodistas, editores y comunicadores acelerar la producción de contenido accesible y multilingüe. La interfaz web es intuitiva y permite la revisión y edición de resultados antes de publicar, reduciendo la necesidad de procesos manuales intensivos e integrando todas las etapas en una sola herramienta.

La solución integra tecnologías de reconocimiento automático del habla, traducción automática y síntesis de voz, con funcionalidades avanzadas como la diarización de hablantes (identificación de quién habla en cada momento, incluso con voces superpuestas), la sincronización de las voces dobladas con el tiempo original del discurso y la mejora del audio para reducir el ruido de fondo. El sistema puede generar transcripciones y traducciones en más de 90 idiomas y doblaje en más de 40 lenguas (en la versión demo el doblaje no está actualmente integrado, pero se puede solicitar una demostración).
Un editor web permite revisar y modificar los resultados: editar textos, ajustar tiempos, cambiar voces o hablantes y regenerar el doblaje. Finalmente, el usuario puede descargar el vídeo o el audio doblado, así como subtítulos en formatos estándar (VTT, SRT y TXT), todo ello en un flujo único pensado para profesionales no técnicos, especialmente periodistas y equipos de comunicación.

El grupo de tecnologías audiovisuales (AgroTech) de la UPC ha aportado su experiencia en verificar el funcionamiento de los distintos bloques e identificar los modelos más adecuados. También ha colaborado en otras tareas de investigación, como la mejora de las bases de datos para la detección automática de idioma. Se han realizado pruebas exhaustivas del sistema en diferentes escenarios de programas de TVE para poder identificar las prestaciones en función del nivel de ruido ambiental, personas hablando al mismo tiempo, etc.

La colaboración con la spin-off Ugiat Technologies ha sido clave para trasladar los resultados de la investigación a una solución aplicada con impacto directo en el sector mediático.

Presupuesto y financiación

El proyecto ha tenido una duración de 1 año (2023) y ha contado con un presupuesto total de 30.000 €.



Proyectos Relacionados