“Los seguidores de Ariana Grande están tan desesperados por la música nueva que se la han inventado”, decía un usuario en Twitter. Estos días, la red social se ha llenado de audios de Ariana Grande, Ava Max o Lady Gaga cantando canciones que, en realidad, nunca han cantado gracias a la inteligencia artificial. ¿Cómo ha sido posible? La respuesta la tiene Diff-SVC, un programa de código abierto que “aprende” las características de una voz para aplicarlas a otro audio.
El usuario Marc C. ha sido quien ha viralizado algunos de los vídeos que más populares se han hecho en los últimos días. En concreto, el vídeo de Prisoner, canción original que Miley Cyrus y Dua Lipa lanzaron en 2019 y que este usuario ha puesto en la voz de Grande, acumula en Twitter más de 200.000 reproducciones a 27 de enero de 2023. Pero no es el único: la versión de Ariana Grande de la canción Kill Bill, cantada en realidad por SZA, tiene en esa fecha más de dos millones de visualizaciones y la de Ava Max cantando Flowers, de Miley Cyrus, más de 150.000.
Ariana Grande — Prisoner (cover by IA). pic.twitter.com/RAmdr9oWMD
— The Ariana Museum (@TheArianaMuseum) January 19, 2023
Cada día estamos un poco más familiarizados con la inteligencia artificial (IA). Especialmente en los últimos meses ha habido un boom de IA en todo internet: desde las voces sintéticas que le ponen voz a la tecnología, el asistente conversacional Chat GPT a Dall-E 2, programa que crea imágenes a partir de texto, del que ya te hemos hablado previamente en Maldita Twitchería con la ayuda del divulgador Carlos Santana, más conocido como DotCSV.
¿Cómo se ha recreado la voz de los cantantes?
El usuario de Twitter @poIiedrico, autor del vídeo de Ava Max versionando Flowers, ha explicado a Maldita.es que la inteligencia artificial que ha usado ha sido Diff-SVC, un software de conversión que toma las características vocales de una voz para posteriormente aplicarlas a otro audio. “Genera nuevos modelos de voz en base a una voz de referencia introducida”, explica Arturo Fuentes Calle, profesor de Fundamentos de imagen digital de la Universitat Politècnica de Catalunya. Y como ocurre con otras inteligencias artificiales es necesario “nutrir” a la máquina para que sea capaz de reproducir el nuevo contenido de la manera más auténtica posible.
Ava Max — Flowers (Demo for Miley Cyrus) pic.twitter.com/QSVQECDycK
— salvooimprevisti ? (@poIiedrico) January 17, 2023
Marc C., creador del video de Prisoner anteriormente mencionado, cuenta a Maldita.es que le llevó “un par de horas” recopilar datos de la voz de Ariana utilizando pistas de voz aisladas que había en YouTube. “Una vez recopilados los datos, un amigo me ayudó a entrenar el modelo, lo que me llevó unos cuatro días”, explica haciendo referencia al entrenamiento de la inteligencia artificial para que terminara sonando como la cantante. “Después prácticamente puedes hacer que cante cualquier cosa utilizando otra fuente vocal, como la voz de otra persona, por ejemplo”, explica. Aunque puntualiza que el proceso es idéntico, no confirma si el programa que usó fue el mismo que el otro usuario mencionado.
Y esto, ¿puede hacerlo todo el mundo? La inteligencia artificial ofrece alternativas para cada vez más personas y su adaptabilidad permite hacer todo tipo de tareas. “El que quiera acceder a ellas no tiene por qué tener conocimientos previos. El éxito de herramientas como el (chatbot de inteligencia artificial) ChatGPT es que es muy fácil de acceder. Hay algunas en las que necesitas un nivel básico y otras que tienes que ser un nerd para usarlas”, dice Fernando Alonso Martín, ingeniero de Informática superior especializado en inteligencia artificial. Por eso, a pesar de que @poliedrico nunca había tenido ninguna experiencia con ninguna IA parecida, pudo hacerlo sin problema.
No es la primera vez que en Maldita.es hablamos de la inteligencia artificial. Ya te hemos contado en qué se diferencian las distintas técnicas que utilizan las IA, como el aprendizaje automático (machine learning) o profundo (deep learning) o las diferencias entre los conceptos.
¿Cómo puede aprovechar la IA la industria de la música?
Cuando hablamos de inteligencia artificial tendemos a ser extremistas. Para Alonso Martín ahora mismo “estamos en el pico de expectativas” en esta nueva ola tecnológica. “Tendemos a irnos de un extremo a otro, de pasar de la euforia a la desilusión muy rápido”, asegura. “Lo mismo nos venimos arriba y pensamos que va a cambiar el mundo a pensar que no va a servir para nada, pero la tecnología tiene un periodo de adaptación”, explica. En Maldita.es, de hecho, ya te hemos contado hasta dónde es capaz la inteligencia artificial de crear canciones por sí sola.
Como ya ocurrió con los deepfake esto no va a cambiar por completo la industria musical, según los expertos. “El fin de la música tal y como la conocemos lleva sucediendo desde hace siglos. Cada innovación trae consigo nuevas posibilidades de modelar un nuevo lenguaje”, afirma Calle. En el caso del software Diff-SVC “puede suponer una nueva herramienta de experimentación y de asistencia en la composición”, añade, pero asegura que la inteligencia artificial no podrá superar al arte humano. “Carece de motivación, aprende de otra forma, y no contiene toda la información con la que un humano dispone para crear y compartir en sociedad”, señala.
Otra forma en la que se puede utilizar y que ya está impactando es para una de las fijaciones de los aficionados a la música: “resucitar” la voz de cantantes fallecidos. Por ejemplo, se ha difundido esta versión de la canción All Apologies, de Nirvana, cantada por la voz clonada de John Lennon.
Pero más allá de usar la inteligencia artificial para imitar al cantante, gracias a esta tecnología también se ha conseguido “rescatar” su voz original. La IA ha permitido restaurar una antigua maqueta casera que grabó el músico y aislar el canto de Lennon del resto de instrumentos, según ha asegurado el propio Paul McCartney.
Esto ha sido posible gracias al De-mix: un proceso que emplea la inteligencia artificial para separar los instrumentos y voces de canciones antiguas para poder restaurarlas. En este artículo os explicamos cómo funciona esta técnica y qué aplicaciones tiene dentro de la industria musical.*
De los ‘deepfake’ para alterar imágenes a los de voz: cómo puede afectar a la desinformación
En Maldita.es ya te hemos explicado cómo los deepfake no son lo mismo que una imagen manipulada, pero ahora la siguiente pregunta es cómo esta herramienta puede usarse para desinformar.
@poIiedrico, por su parte, asegura que “siempre está el inconveniente de que la gente use este programa de inteligencia artificial para mal”, pero “la gente ha hecho esto durante años. Lo has visto con "Obama canta [esta canción]" o "Trump canta [esta otra canción]". Esto no es diferente”.
*Este artículo ha sido actualizado el 23 de junio de 2023 para incluir nuevos contenidos sobre el uso de la inteligencia artificial y las grabaciones de John Lennon.
Primera fecha de publicación de este artículo: 27/01/2023