Maldita Tecnología

Los supuestos vídeos del presentador Joe Rogan que difunden teorías de la conspiración: no son reales, utilizan voces clonadas con inteligencia artificial

Publicado el Oct 4, 2023, 3:33:00 PM

Tiempo de lectura: 11 minutos

Las claves

Se han viralizado vídeos supuestamente extraídos del podcast de Joe Rogan en los que el cómico habla de diferentes teorías de la conspiración, pero no son reales
Se ha empleado inteligencia artificial para clonar la voz del presentador y crear supuestas imágenes de sucesos que nunca han ocurrido
Otros usuarios han manipulado los vídeos para crear entrevistas falsas con Donald Trump o Sam Altman

“En 2008 unos exploradores descubrieron cámaras secretas en la pirámide de Guiza”. “En 1982 se halló un submarino alemán en los bosques de México”. “Se han encontrado cuerpos de aliens en Perú”... No, no son tramas de películas de ciencia ficción: son supuestos fragmentos del podcast del cómico estadounidense Joe Rogan que se han difundido en redes sociales. Pero estos vídeos no son reales y el presentador nunca ha pronunciado estas palabras (aunque sí ha tratado algunas de estas temáticas en su canal), sino que se trata de una voz clonada con inteligencia artificial. Pon el oído que te explicamos qué contenidos se difunden y cómo se crean estos audios.

De las pirámides de Guiza a entrevistas con el fundador de ChatGPT, estos vídeos cambian los diálogos reales de Rogan por su voz clonada

The Joe Rogan Experience es el podcast de Joe Rogan (cómico estadounidense polémico por dar voz a discursos antivacunas y negacionistas de la COVID-19) que lleva en emisión desde 2009 y que cuenta con una media de 11 millones de visualizaciones por programa, según TIME. En este espacio el locutor entrevista a diferentes celebridades (desde Elon Musk a Bernie Sanders) para hablar de diferentes temas, como política, filosofía o eventos paranormales.

Pero en redes sociales se han comenzado a difundir una serie de supuestos fragmentos de este programa que van un paso más allá. Ya no se trata de conversaciones sobre la posible existencia de extraterrestres o de las audiencias del Congreso de los Estados Unidos sobre el avistamiento de OVNIs: la red se ha inundado de vídeos en los que el presentador supuestamente abraza diferentes teorías de la conspiración, desde el descubrimiento de unas cámaras secretas en las pirámides de Guiza a experimentos de la Alemania nazi.

@podcastfirst Episode 2 | Teleportation Submarine? #joerogan #podcast ♬ Shelby - sergionabeat

Pero estos vídeos no son reales y Joe Rogan nunca ha pronunciado estas palabras. Se trata de audios creados a través de inteligencia artificial, en concreto mediante voces clonadas: voces que imitan el habla, el timbre, y la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona concreta después de entrenarse con sus grabaciones.

En el caso de los vídeos de TikTok que se difunden sobre teorías de la conspiración se puede observar como la voz de Joe Rogan no sigue el movimiento de sus labios, por lo que la inteligencia artificial sólo se ha utilizado para clonar su forma de hablar (a diferencia de un deepfake, donde también se utiliza la IA para recrear la cara y los gestos de una persona). El autor de estos fragmentos (bajo la cuenta @podcastfirst) asegura que hace estos contenidos “por entretenimiento”.

También se está usando esta tecnología para crear programas ficticios enteros del programa de Joe Rogan con invitados con los que no ha mantenido esas conversaciones, como el fundador de OpenAI, Sam Altman, o el expresidente de los Estados Unidos Donald Trump. Es el caso del canal de Youtube The Joe Rogan AI Experience, un espacio dedicado a crear supuestos episodios de este podcast a través de la inteligencia artificial: tanto el guion como las voces clonadas se han creado con esta tecnología, así como las imágenes que aparecen en el vídeo. (En esta ocasión tampoco estaríamos hablando de un deepfake, ya que son imágenes estáticas que no recrean los gestos de estas personas).

Algunos de estos vídeos intercalan supuestas imágenes de sucesos que nunca han ocurrido, y varios de los contenidos se están difundiendo como reales

Estos contenidos no sólo se valen de la inteligencia artificial para clonar la voz de Joe Rogan, sino que también utilizan otras herramientas de generación de imágenes (como DALL-E o Midjourney) para recrear hechos que nunca han sucedido. Por ejemplo, para las teorías de la conspiración difundidas en los TikToks de @podcastfirst también se muestran supuestas imágenes de alienígenas, soldados o fenómenos paranormales. Un recurso que hemos observado en otras teorías de la conspiración sobre sucesos históricos.

En el caso de los programas ficticios de The Joe Rogan AI Experience se ha usado la inteligencia artificial para recrear imágenes de entrevistas que nunca han tenido lugar, como es el caso del actor Dwayne Johnson ‘La Roca', Sam Altman o Donald Trump. Aunque insistimos en que en este caso se tratan de imágenes estáticas con voces clonadas de fondo y no de vídeos en movimiento (no serían un deepfake por definición).

Aunque el creador de estos vídeos advierte a sus espectadores de que son contenidos creados con IA y les pide no descontextualizar este audio ni hacerlo pasar por real, en redes sociales como TikTok ya se han difundido fragmentos de estos programas ficticios, como por ejemplo una conversación entre Rogan y Trump sobre las fronteras de Estados Unidos. Aunque algunos usuarios señalan que es IA, otros preguntan por el episodio en el que el presentador habla de estas teorías o creen que estos vídeos son reales.

El propio cómico advirtió en un tuit que “esto se va a poner muy resbaladizo”, después de ver uno de estos episodios.

La inteligencia artificial permite crear un modelo acústico que replica la voz y el acento de una persona, algo con lo que Spotify ha empezado a experimentar

Para conseguir estas voces clonadas es necesario seguir una serie de procesos para que un programa de IA aprenda a hablar como nosotros. El primer paso es obtener muestras de voz con buena calidad para que la máquina sea capaz de estudiarlas y aprender de ellas. En el caso de Joe Rogan, en internet hay disponibles cientos de horas de audio grabadas con un micrófono profesional al alcance de todo el mundo (las grabaciones de su podcast), por lo que la IA cuenta con una gran base de datos sobre la que entrenarse.

A través de la transcripción de estos audios y el estudio de las ondas sonoras estos programas que buscan clonar voces (como VALL-E) son capaces de relacionar determinadas palabras con diferentes sonidos, determinar cómo los pronuncia una persona en concreto y así crear un modelo acústico: es decir, una representación de cómo sonamos, nuestro timbre y prosodia. En este artículo puedes encontrar más información sobre cómo funciona este proceso.

En una entrevista en The Edge, el autor de estos podcasts falsos creados con inteligencia artificial, que sólo ha dado el nombre de Hugo, aseguró que la idea era “intentar generar un capítulo de The Joe Rogan Experience con ChatGPT” y después “usar una de estas aplicaciones para clonar la voz”. El autor aseguró que cada capítulo puede tardar entre un día y medio a tres semanas en estar terminado y que durante ese periodo de tiempo intentó mejorar la voz clonada de Joe Rogan añadiendo más audios de su programa a la máquina y así obtener un resultado más realista.

“Si soy honesto, creo que todavía no estamos ni cerca de sustituir a los podcasts reales o a las conversaciones reales, pero puedo entender el miedo de la gente”, argumentó Hugo. Spotify, plataforma de streaming con la que Joe Rogan tiene un contrato de exclusividad estimado en 200 millones de dólares, también ha comenzado a experimentar con podcast doblados a otros idiomas a través de la inteligencia artificial, una tecnología que también se ha usado para doblar memes españolas a otros idiomas. Aquí puedes escuchar un ejemplo.