menu MENÚ
MALDITA TECNOLOGÍA

Cuidado si utilizas detectores para saber si un audio está generado por IA: no son herramientas infalibles

Publicado
Claves
  • Los avances en inteligencia artificial han facilitado la generación de audios que en ocasiones se utilizan con fines maliciosos, como difundir desinformación o suplantar identidades
  • Aunque han surgido detectores automatizados que prometen identificar si un audio está creado con IA, a día de hoy no son infalibles: existen diferentes técnicas para generar audios con IA, y los detectores no tienen porqué estar entrenados para reconocerlas todas
  • Buscar el origen de la grabación o fijarnos en indicios como pausas raras, falta de emoción, caídas en la melodía de la voz o errores en la pronunciación puede ayudarnos a detectar si se trata de un audio generado con IA

Comparte
Etiquetas

El desarrollo de herramientas de inteligencia artificial más accesibles ha facilitado la generación de audios creados con esta tecnología, que en ocasiones se usan con malas intenciones, como suplantar identidades o desinformar. Hemos visto casos de voces generadas con IA y difundidas como si fueran reales, como estos supuestos audios de JD Vance insultando a Elon Musk o esta presunta grabación en la que Musk le dice a Donald Trump que ‘Tesla se hunde’.

La detección de audios generados con inteligencia artificial es complicada porque pueden alcanzar altos niveles de realismo y no presentar marcas evidentes que los identifiquen como artificiales. Una de las alternativas que han surgido a modo de respuesta son los detectores automatizados o verificadores. Sin embargo, tanto la generación de audios sintéticos como su detección es una tecnología en continua evolución, y este tipo de herramientas pueden presentar algunas limitaciones y no ser infalibles.

Analizamos su fiabilidad por si te has planteado usarlos, y recogemos qué señales deben hacernos sospechar de que un audio ha podido ser generado con IA. Si has recibido un audio y sospechas que puede estar manipulado (con IA o con otra técnica), puedes escribirnos a través de nuestro servicio de Whatsapp (+34 644 229 319).

Algunas herramientas de detección de audios tratan de detectar imperfecciones acústicas que solo introducen las IA

“Un audio sintético es una grabación de voz creada artificialmente con un programa informático”, explica a Maldita.es la doctora Sheila Queralt, lingüista forense y directora del Laboratorio SQ-Lingüistas Forenses. ¿Cómo se hace? “La inteligencia artificial analiza miles de grabaciones humanas y aprende a imitar detalles como el tono, la pronunciación, el ritmo e incluso las pausas naturales”, desarrolla. Según la experta, en la actualidad los resultados son tan sofisticados que “resulta casi imposible distinguirlos a simple oído”. Para tratar de reconocerlos, se han desarrollado detectores de audio, una herramienta a la que se le introduce la grabación que queremos verificar y que calcula la probabilidad de que esté generada con inteligencia artificial. 

La detección de audios falsos es relativamente novedosa”, explica Javier Huertas, experto en inteligencia artificial, profesor en la Universidad Politécnica de Madrid y miembro del grupo de investigación NLP-DL (Natural Language Processing and Deep Learning). “Mientras que la imagen y el texto han recibido mucha atención de la comunidad investigadora, el audio ha quedado parcialmente eclipsado”, añade.

No existe una única forma de construir un detector de audio generado con IA. El investigador explica que “hay modelos que tratan de reconocer audio falso directamente”, mientras que otros “intentan extraer características intermedias como emociones y artefactos (detalles específicos en el audio que solo introducen las IA), entre otros”. Los artefactos digitales, según explica Sheila Queralt, son “pequeñas anomalías o irregularidades introducidas inadvertidamente durante el proceso de síntesis de voz”, y específica que se trata de “imperfecciones acústicas”. Algunos ejemplos de artefactos digitales que describe la experta a Maldita.es son la presencia de timbres metálicos en ciertas sílabas o caídas bruscas en la melodía de la voz.

Estas herramientas no son infalibles porque hay muchas formas de generar audios con IA y puede que el detector no esté entrenado para todas ellas

Los modelos de inteligencia artificial se entrenan “observando” cantidades masivas de datos. Pero, “por desgracia, los conjuntos de datos de calidad en esta materia [el audio] escasean”, indica Huertas. El problema es que hay muchas formas de generar audios con inteligencia artificial, y un detector que se ha entrenado con un tipo específico de audios generados con IA probablemente no funcionará correctamente detectando otros.

A pesar de que los detectores de audio presentan altos niveles de efectividad y que las investigaciones científicas avanzan con rapidez para construir detectores más precisos, es importante tener en cuenta que, a día de hoy, estas herramientas no son completamente infalibles. “Es como ‘el gato y el ratón’”, indica Huertas, y explica que una vez que se sabe cómo funciona un detector en concreto, pueden generarse audios para tratar de engañarlo: “Esta es la principal limitación de los modelos de detección”.

Un audio manipulado no tiene por qué ser totalmente sintético y, según explica Sheila Queralt, esta es otra de las limitaciones de estos detectores. La experta indica que si un audio ha sido manipulado sin el uso de inteligencia artificial, únicamente a partir de fragmentos de grabaciones reales, será más complicado que la herramienta detecte indicios de manipulación ya que “no hay material sintético nuevo, sino solo reordenamiento de audio genuino”. En el caso de audios híbridos, es decir, cuando se insertan partes generadas por inteligencia artificial en audios reales, Queralt explica “su eficacia dependerá de varios factores: la calidad del montaje, la longitud y relevancia de la parte generada, y las capacidades específicas del detector utilizado”.

Si vamos a usar detectores, debemos conocer sus limitaciones, no considerarlos una prueba definitiva y usar más de uno para verificar un mismo audio

Por tanto, apoyarnos en estas herramientas para saber si un audio está generado o manipulado con IA puede ser útil, pero es fundamental que tengamos en cuenta estas limitaciones. Queralt recomienda conocer los límites de las herramientas que se utilizan y considera imprescindible “leer la documentación de la herramienta para saber qué tipo de deepfakes puede detectar y bajo qué condiciones falla”. 

Además, la doctora añade que “los resultados deben considerarse solo una pista inicial, no como prueba definitiva” y que “ninguna herramienta debe ser usada como único criterio”, sino que “lo ideal es combinar los resultados con la evaluación de un perito especializado en acústica forense”. En esta línea, Javier Huertas recomienda “ser escéptico de las herramienta de detección y de su resultado”, y sugiere usar más de un detector para verificar un mismo audio.

Dentro de las limitaciones de estas herramientas, Sheila Queralt señala algunos detectores en función de lo que se quiera analizar, recordando “que ninguna de estas herramientas garantiza por sí sola una detección infalible”. Por ejemplo, para comprobar si una voz ha sido clonada destaca la plataforma Resemble Detect, desarrollada por ResembleAI; o AI Speech Classifier, de ElevenLabs, para detectar si un audio ha sido generado utilizando su propia aplicación. La experta también recomienda utilizar otros recursos que no son específicos para la detección, pero que pueden complementar el análisis del sonido. Un ejemplo de ellos es la herramienta Audacity, una aplicación libre dedicada a la grabación y edición de audio que permite visualizar el espectrograma de la grabación para detectar irregularidades

En qué podemos fijarnos para detectar si un audio ha sido generado con IA

Según expertos consultados, es difícil distinguir una voz clonada en un audio simplemente escuchándolo. “En uno corto de 4-5 segundos es muy poco probable que detectes que la voz es clonada”, asegura Carmen Torrijos, lingüista computacional, responsable de IA en Prodigioso Volcán y maldita que nos ha prestado sus superpoderes. Y añade: “En cambio, en un audio más largo (30 segundos - 1 minuto) ya puedes detectar pequeñas inflexiones, muy leves, o un tono un poco más robótico en la pronunciación rara de algunos fonemas que pueden darte una pista”.

Si recibes un audio que sospechas que ha podido ser generado con IA, aquí tienes algunos consejos para tratar de identificar si se trata de una grabación manipulada:

  1. Rastrea el origen del audio y comprueba a través de qué medios se ha difundido. Por ejemplo, en el caso de los audios en los que supuestamente JD Vance insulta y critica a Elon Musk, se puede comprobar que se trata de grabaciones que solo circulaban a través de redes sociales. Si es complicado rastrear el origen o no hay información de fuentes fiables que respalden el contenido del audio o su veracidad, debe hacernos sospechar.

  2. Busca patrones, pausas raras, cambios bruscos en la melodía, un timbre metálico, falta de emoción, errores en la pronunciación… A pesar de que actualmente no existe un método infalible para saber si una voz ha sido generada de forma sintética, las observaciones pueden ayudarnos a identificar errores en un audio creado con técnicas digitales, como IA generativa. En general, las voces naturales presentan una serie de características propias como son el tono, el timbre o el ritmo. Estas singularidades varían en función de la persona y el contexto en el que se emplee la voz, y en el caso de la voces artificiales son invariantes, indicando monotonía y falta de emoción. La existencia de “un timbre metálico” en ciertas sílabas o “saltos o caídas bruscas en la melodía de la voz” son, según Queralt, ejemplos de artefactos digitales que pueden indicar que estamos ante una voz generada con IA.

  3. Utiliza los detectores de audio como una pista inicial y no como una garantía de que se trata de un audio generado con IA. Hay muchas formas de generar audios sintéticos y estas herramientas, que como hemos visto no son infalibles, pueden no funcionar para todos ellos. Además, una vez que se sabe cómo funciona un detector, pueden generarse audios sintéticos que traten de engañarlo.

  4. Comprueba si el audio sospechoso ya ha sido desmentido por algún fact-checker o alguna otra fuente fiable. En otro caso, puedes escribirnos a [email protected] o contactarnos a través de nuestro servicio de Whatsapp (+34 644 229 319).

  5. Investiga si la persona suplantada se ha manifestado al respecto en sus redes sociales o en algún comunicado oficial.

Además, en ocasiones, la generación de audios con IA tiene como objetivo aumentar la credibilidad de algún timo o estafa, y utilizan IA generativa para suplantar la voz de nuestros familiares. Para estos casos, el INCIBE da una serie de consejos para prevenir timos con voces clonadas:

  • Si recibimos una llamada sospechosa, debemos contrastar la información con la persona a la que podrían estar suplantando la identidad.

  • No debemos facilitar datos personales ni bancarios bajo ningún concepto. Tampoco debemos seguir indicaciones que nos den, como pinchar en enlaces o descargar aplicaciones.

  • Podemos acordar una palabra “clave” con nuestros familiares y amigos para corroborar nuestra identidad en estos casos.

Si te llaman desde el número de teléfono de tu familiar, puede tratarse de spoofing, una técnica a través de la cual los timadores consiguen que el identificador de llamadas muestre un número diferente de teléfono. Si sospechas que puedes estar siendo víctima de una estafa, cuelga y vuelve a llamar.

Hazte maldito, Hazte maldita
Te necesitamos para combatir los bulos y la mentira: sólo juntos podemos pararla. En Maldita.es queremos darte herramientas para protegerte contra la desinformación, pero sólo con tu apoyo será posible.

Eres muy importante en esta batalla para que no nos la cuelen. Seguro que tienes conocimientos útiles para nuestra batalla contra los bulos. ¿Tienes conocimientos de idiomas? ¿Lo tuyo es la historia? ¿Sabes mucho sobre leyes? ¡Préstanos tu Superpoder y acabemos juntos con los bulos!

También puedes apoyarnos económicamente. Maldita.es una entidad sin ánimo de lucro y que sea sostenible e independiente, libre de publicidad y con profesionales bien remunerados dedicados a luchar, contigo, contra la desinformación depende de tu ayuda. Cada aportación cuenta, cualquier cantidad es importante.