Maldita Tecnología

¿Es posible saber si un audio está generado con inteligencia artificial? Consejos y pasos para tratar de detectar audios sintéticos

Publicado el Jun 10, 2025, 8:13:00 AM

Tiempo de lectura: 12 minutos

En corto:

Los avances en inteligencia artificial generativa hacen cada vez más complicado reconocer si un audio ha sido generado o manipulado usando esta tecnología, y actualmente no existen métodos infalibles para poder afirmarlo
Podemos rastrear su origen, ver en qué contextos se ha movido (redes sociales, foros y webs) y comprobar, si es el caso, si la persona suplantada se ha pronunciado sobre el audio
También existen señales como pausas raras, errores en la pronunciación, cambios bruscos en la melodía, falta de emoción o timbres metálicos que deben hacernos sospechar de que sea un audio real
Los expertos recuerdan que las herramientas de verificación automática no garantizan por sí solas una detección infalible, y recomiendan utilizar más de una para verificar un mismo audio

En ocasiones, las grabaciones de voz creadas artificialmente con un programa informático o con inteligencia artificial se utilizan con fines maliciosos, como desinformar o suplantar identidades. Con la mejora de las herramientas de IA generativa, cada vez es más difícil reconocerlos únicamente a través de la escucha, especialmente si se sacan del contexto en el que se han compartido. Analizar patrones como pausas raras o cambios en la melodía de la voz, así como apoyarnos en herramientas de detección automática puede ayudarnos a detectar si una grabación es sintética.

Recopilamos estos y otros consejos para saber en qué fijarnos si sospechamos que una grabación está generada con esta tecnología, teniendo en cuenta que la IA generativa mejora continuamente para pulir los defectos. También puedes escribirnos a [email protected] y trataremos de averiguarlo.

¿Quieres recibir la actualidad tecnológica directamente en tu email?

Suscríbete aquí a la newsletter de Maldita Tecnología 'Tech en un clic'

Rastrea la fuente original del audio y comprueba si ya ha sido desmentido por alguna fuente fiable

Lo primero que debemos hacer cuando recibimos un audio que sospechamos que puede estar generado o manipulado con inteligencia artificial (o con cualquier otra tecnología) es preguntarnos cuál es su fuente original. Para comprobarlo, debemos rastrear el origen del audio. Esto se puede hacer buscando por el texto del audio en los navegadores habituales y en los medios a través de los que se ha difundido. Por ejemplo, en el caso de unos audios en los que supuestamente JD Vance insulta y critica a Elon Musk, se puede comprobar que se trata de grabaciones que solo circulan a través de redes sociales.

Para localizar la fuente original o contexto en el que se difunden se pueden realizar búsquedas por palabras clave tanto en buscadores como en redes sociales. Encontrar este origen puede darnos también los mensajes y el contexto original con los que se ha publicado el contenido. En ocasiones, el creador del contenido ha podido indicar que se trata de un audio generado con IA, como en el caso de los fans de algunos artistas que usaron la IA para hacer versiones de canciones que nunca cantaron.

Podemos comprobar si el audio sospechoso ya ha sido desmentido por algún fact-checker (aquí tienes el listado de los miembros, como Maldita.es, de la International Fact-Checking Network, IFCN) u otra fuente fiable. Además, rastrear cómo se difunden estos audios puede desvelar si forma parte de una narrativa desinformadora con otras grabaciones o contenidos similares que ya haya sido desmentida; así es más fácil identificarlos.

Es recomendable también investigar si la persona suplantada o cuya voz está siendo utilizada en ese audio se ha manifestado al respecto en algún comunicado oficial o en redes sociales.

Si es complicado rastrear el origen, si se difunde principalmente a través de redes sociales, foros o webs o si no encontramos información de fuentes fiables que respalden el contenido del audio, debe hacernos sospechar que puede ser falso.

Las pausas raras, cambios bruscos en la melodía, falta de emoción o timbres metálicos pueden indicar que un audio está generado con IA

Las técnicas de observación pueden permitirnos identificar errores en un audio creado con técnicas digitales, como por ejemplo, IA generativa. En general, las voces naturales presentan una serie de características propias como son el tono, el timbre o el ritmo. En el caso de las voces naturales, estas singularidades varían en función de la persona y el contexto en el que se emplee la voz. Sin embargo, en el caso de la voces artificiales son invariantes, indicando monotonía y falta de emoción.

A pesar de que la síntesis de la voz es una tecnología muy avanzada, Javier Huertas, experto en inteligencia artificial, profesor en la Universidad Politécnica de Madrid y miembro del grupo de investigación NLP-DL (Natural Language Processing and Deep Learning) explica que existen “características intermedias como emociones y artefactos (detalles específicos en el audio que solo introducen las IA), entre otros” que deben hacer saltar las alarmas. Además, Sheila Queralt, lingüista forense y directora del Laboratorio SQ-Lingüistas Forenses, añade que la existencia de timbres metálicos en ciertas palabras, ruido de fondo poco convincente o cambios repentinos en la melodía de la voz son ejemplos de artefactos digitales que pueden indicar que estamos ante un audio generado con IA.

Podemos apoyarnos en detectores de audio, pero no son infalibles y no debemos usarlos como prueba definitiva

A modo de respuesta ante el realismo que presentan los audios sintéticos, han surgido herramientas que tratan de detectar contenidos generados con inteligencia artificial haciendo uso de la propia IA. Estas herramientas, conocidas como detectores automatizados o verificadores, analizan la grabación que queremos verificar y calculan la probabilidad de que se trate de un audio sintético. A pesar de que pueden ser un apoyo para detectar patrones que nosotros no percibimos a simple oído, es fundamental que tengamos en cuenta que cuentan con limitaciones.

Queralt indica que los resultados arrojados por un detector automático “deben considerarse solo una pista inicial, no como prueba definitiva” y recuerda “que ninguna de estas herramientas garantiza por sí sola una detección infalible”. La lingüista recomienda consultar la documentación de las herramientas para saber qué tipo de audios sintéticos puede detectar y complementar estos resultados con la evaluación de un perito especializado. En esta línea, Huertas recomienda “ser escéptico de las herramienta de detección y de su resultado”, y sugiere usar más de un detector para verificar un mismo audio.

Queralt señala algunos detectores en función de lo que se quiera analizar, dentro de las limitaciones con las que cuentan estas herramientas. Por ejemplo, para verificar si una voz ha sido clonada habla de la plataforma Resemble Detect, desarrollada por ResembleAI; o AI Speech Classifier, de ElevenLabs, que comprueba si un audio ha sido generado utilizando su propia aplicación. La experta también recomienda utilizar otros recursos digitales que no son específicos para la detección, pero que pueden complementar este análisis del sonido. Un ejemplo de ellos es la plataforma libre Audacity, dedicada a la grabación y edición de audio que nos permite extraer el espectrograma para detectar irregularidades.

Algunos ejemplos de audios generados o manipulados con IA para que hagas el oído

En Maldita.es hemos recogido varios casos de audios posiblemente generados o manipulados haciendo uso de inteligencia artificial. Te dejamos algunos ejemplos para que puedas hacerte una idea de en qué contextos se comparten y cómo suenan los audios generados con IA.

Existen canales de YouTube que utilizan IA generativa para desinformar sobre política española y europea, compartiendo desinformaciones como que Von Der Leyen ha expulsado a Ribera en la Eurocámara o que Giorgia Meloni ha criticado a Jose Luis Rodríguez Zapatero en el Parlamento Europeo. En estas investigaciones realizadas por Maldita.es se puede observar que se trata de una red de canales desinformadores que comparten los mismos mensajes con diferentes títulos y miniaturas. Estos contenidos se apoyan en imágenes creadas con IA, tanto durante el vídeo como en las miniaturas, y se pueden encontrar pruebas del uso de voces sintéticas para poner voz a los vídeos, a modo de narrador.
Han circulado unas grabaciones en las que supuestamente Elon Musk le dice a Donald Trump que Tesla se hunde. Estos audios se difundían únicamente a través de redes sociales y expertos consultados por Maldita.es indicaron que podían estar generados con IA imitando las voces de Musk y Trump.
También han circulado audios en los que supuestamente JD Vance insulta a Elon Musk. JD Vance afirmó en sus redes sociales que se trataba de contenido falso y expertos especializados en IA generativa indicaron que posiblemente estaban creados utilizando esta tecnología.
Se difundió un vídeo en el que supuestamente Yolanda Díaz dice que es la guardiana de las estrellas y que su plan es “es convocar a las estrellas, que me recojan, volver al Sol y joder el planeta (sic)”. Buscando la fuente original de este vídeo, se puede comprobar que se procede de una cuenta que define como de humor y parodia.
Los timadores utilizan técnicas de clonación de voz para con inteligencia artificial para suplantar la identidad de personajes famosos y así dar credibilidad a los timos. Por ejemplo, en timos amorosos como este caso en el que una lectora de Maldita.es creyó estar hablando con el actor británico James Norton. También se han registrado casos en los que los timadores clonan las voces de nuestros familiares y conocidos a través de llamadas o videollamadas manipuladas con IA.
También circulan en redes sociales vídeos y audios de artistas cantando temas que nunca han cantado con programas de código abierto como Diff-SVC.

Ten en cuenta que la inteligencia artificial generativa es una tecnología que mejora continuamente y puede pulir los defectos actuales

La inteligencia artificial generativa es una tecnología que evoluciona con gran rapidez para mejorar los defectos que hoy permiten identificar el contenido sintético, ya sea a simple oído o haciendo uso de detectores. Por tanto, a pesar de que las técnicas de observación pueden darnos indicativos de que un audio es sintético y que las investigaciones avanzan con rapidez para construir detectores más precisos, es importante tener en cuenta que, a día de hoy, no existen métodos completamente infalibles para afirmar que un audio está generado con inteligencia artificial.

Por tanto, no siempre podemos afirmar con total seguridad que un audio ha sido generado con IA, especialmente si no conseguimos encontrar la fuente original o no existen señales evidentes que nos permitan asegurarlo. Sin embargo, si seguimos estos pasos, podemos encontrar indicios suficientes como para sospechar que no es real y que posiblemente se ha generado haciendo uso de inteligencia artificial. En cualquier caso, el reto no es identificar si el audio ha sido generado con IA, porque puede haber sido alterado con cualquier otra tecnología o ser un montaje haciendo corta y pega de otros audios. El objetivo es entender si se trata de un audio falso o si está suplantando a alguien, para que no nos la cuelen.

Etiquetas:

#audio #consejos #verificacion #inteligencia artificial