“We are feelings and we have human beings”. “Long live Murcia”. “I’m so sorry I didn't like women, because you would have been happier”. “Who wouldn’t like a Roman Empire of the 1st century?”. No, no son extractos del guion de la próxima gran producción de Netflix ni de la última novela de Stephen King. Son algunas de las frases y memes más icónicos del internet Español que estos días han vuelto a circular en redes sociales, pero con un pequeño cambio: ahora están disponibles en toda una selección de idiomas. Desde Belén Esteban hablando en francés a ElXokas gritando en portugués, se han viralizado diferentes fragmentos que han sido doblados a través de la inteligencia artificial. Os explicamos cómo funcionan estas traducciones y cómo la máquina es capaz de ofrecernos nuestros memes favoritos en otras lenguas.
La inteligencia artificial permite traducir vídeos (y memes) en español a otros idiomas
“Por fin los guiris van a entender los memes de Belén Estebán”. Con mensajes como este se han difundido en los últimos días varios vídeos que han sido traducidos del español a otros idiomas gracias a la inteligencia artificial. Desde escenas de series como Aquí no hay quien viva o Paquita Salas a fragmentos de programas televisivos, en estas publicaciones podemos escuchar a figuras como Mariano Rajoy o La Veneno hablar en otro idiomas conservando (en algunas veces con más acierto que otras) las características de su voz, como el tono o la pronunciación de ciertas palabras.
Vivimos en una simulación... https://t.co/n7rT0Ryxq3 pic.twitter.com/ev0FQKyrCl
— SinApellidos (@sin_apellidos) September 14, 2023
Para traducir estos vídeos varios usuarios en redes sociales aseguran haber utilizado plataformas como Rask: una herramienta que emplea la inteligencia artificial para traducir un audio y generar una voz que hable en otro idioma. Su funcionamiento es sencillo y permite a sus usuarios subir un vídeo y recibir estas versiones dobladas a otros idiomas (la compañía asegura que puede traducir hasta 130 idiomas) a cambio de una suscripción mensual.
Otras plataformas también han comenzado a incorporar poco a poco funciones similares que permiten doblar vídeos empleando la inteligencia artificial. Por ejemplo, Youtube anunció en junio de 2023 una alianza con la compañía Aloud para ofrecer una traducción a los vídeos de la plataforma, y creadores de contenido como Daily Dose of Internet ya comparten sus vídeos en varios idiomas a través de audios traducidos por IA. Otros servicios como HeyGen han dado un paso más allá y también ofrecen traducción de vídeos con sincronización labial. Esto refuerza la verosimilitud de que es la persona que vemos la que habla en el idioma que hayamos elegido, aunque la persona en cuestión no lo hable realmente.
Para hacer estos vídeos la máquina pasa la voz a texto, traduce su significado, y lo reproduce a través de voces sintéticas
¿Pero cómo es capaz la inteligencia artificial de traducir estos vídeos? Como os hemos explicado en otras ocasiones, una máquina no es capaz de entender el significado de una palabra o el sentido de una frase, y en el ámbito de la voz tampoco es capaz de procesar directamente un audio. Para traducir estos vídeos del español a otros idiomas y replicar la voz de sus protagonistas son necesarios diferentes pasos.
El primero de todos, antes de que la máquina pueda traducir nada, debe procesar lo que se está diciendo en el vídeo. Para ello, es necesario convertir el audio a otro formato compatible, como es la palabra escrita. Este proceso se conoce como conversión de voz a texto (speech-to-text), y es a través de este sistema por el que los asistentes de voz como Siri y Alexa son capaces de saber lo que les pedimos.
Una vez que la máquina ha recibido el texto, puede pasarlo a otro idioma como si se tratara de una traducción normal, como la que haríamos a través del Traductor de Google. Una vez que tiene esta traducción aún queda otra tarea: convertir el texto en un formato de audio y además hacerlo manteniendo las características de la voz original, como el timbre, el tono o el acento.
Para ello se emplean sistemas de conversión de texto a voz (text-to-speech), que transforman la palabra escrita en sonido, y su resultado es lo que se conoce como una voz sintética. Hasta hace unos años estos programas generaban audios que nos podían sonar artificiales o algo robóticos, pero gracias a la inteligencia artificial han surgido lo que se conoce como voces clonadas: aquellas voces que imitan la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona en concreto.
Para ello, la máquina estudia varias grabaciones de un único individuo y aprende a generar un modelo acústico: una representación de la voz de una persona y sus características (aquí puedes encontrar más detalles sobre cómo se crean). Es gracias a esta tecnología que algunos de los memes que se están compartiendo en estos días (aunque no todos) suenan con una voz muy parecida a la de sus protagonistas, incluso imitando su acento. Cómo diría el personaje de Noemí Argüelles de la serie Paquita Salas: “Es para reflexionar” (o como lo pronunciaría su versión en inglés: “It’s food for thought”).
3400 divacels left https://t.co/zcpB036OGE pic.twitter.com/ZTt7Y4Ebxl
— txomin (@vc_txomin) September 14, 2023
Los profesionales de la voz critican que el uso de la inteligencia artificial puede precarizar su trabajo
Más allá de su uso a modo de broma colectiva en redes sociales, desde el mundo del doblaje temen que esta tecnología precarice su trabajo o lo sustituya. Los trabajadores de la industria de Hollywood han expresado su preocupación y argumentan que el uso de la inteligencia artificial que están haciendo los grandes estudios va a empeorar sus condiciones de trabajo. En Italia los dobladores llegaron a la huelga en marzo de 2023 en protesta por estas herramientas, y en España el sindicato de doblaje madrileño Adoma también ha pedido regular el empleo de esta tecnología en el ámbito de la voz profesional.
Alejandro Graue, actor de doblaje argentino que trabajaba localizando los vídeos de un creador de contenido del inglés al español, anunció en enero de 2023 en una publicación de Twitter (ahora X) y en Youtube que su empleador había decidido prescindir de sus servicios en favor de una de estas herramientas que permiten traducir a través de la inteligencia artificial.