MENÚ

Cómo los estafadores pueden emplear la inteligencia artificial para suplantar la voz de nuestros conocidos

Publicado
Actualizado
Claves
  • Esta tecnología permite entrenar a una máquina para que reproduzca la voz de una persona y diga cosas que en realidad no ha pronunciado
  • En algunos casos los timadores han empleado la inteligencia artificial para suplantar la identidad de un amigo o familiar y llevar a cabo sus estafas 
  • Los expertos aseguran que, aunque estas herramientas están al alcance de unos pocos, hay que desconfiar de supuestas llamadas de conocidos a través de números extraños
Comparte
Etiquetas

La inteligencia artificial (IA) es noticia y estamos viendo más aplicaciones que nunca: modelos conversacionales como ChatGTP, que nos permite hablar con una máquina y preguntarle todo tipo de cosas (aunque comete fallos), otros chatbots incorporados a buscadores por los que apuestan las grandes tecnológicas o voces sintéticas para devolverle la posibilidad de hablar a aquellos que la han perdido. Pero los timadores también han comenzado a utilizar esta tecnología para llevar a cabo sus estafas. En concreto, están utilizando la IA para suplantar la voz de conocidos.

Hay timadores que han empleado voces clonadas a través de la inteligencia artificial para engañar a sus víctimas

Es el caso de Ruth Card y Greg Grace, matrimonio estadounidense que recibió una supuesta llamada telefónica de su nieto pidiendo auxilio. Según relata la pareja, en la llamada una voz que sonaba a la de su familiar explicaba que se encontraba en prisión sin teléfono o cartera, y que necesitaba dinero para pagar la fianza. El matrimonio incide en que pudieron notar “el miedo” en la voz de su ser querido, y que eso fue lo que les llevó a actuar, según recoge The Washington Post.

Tras sacar cerca de 3.000 dólares canadienses en un cajero, el matrimonio se dirigió a una segunda oficina para sacar más dinero. Pero en ese momento uno de los gestores del banco detuvo a la pareja y les explicó que habían vivido otro caso similar recientemente que cumplía el mismo patrón: una supuesta llamada de auxilio de un familiar. Fue en ese momento cuando ambos descubrieron que no era su nieto quién estaba al teléfono, sino que los timadores habían conseguido replicar su voz utilizando la tecnología de la inteligencia artificial para intentar hacerse con su dinero.

No es el único caso en el que se ha empleado una voz clonada a través de inteligencia artificial para suplantar una identidad y cometer estafas. The Wall Street Journal recogió en 2019 el caso de una compañía energética que recibió una llamada falsa de su CEO pidiendo una transferencia de 220.000 euros. También en 2020 varios timadores clonaron la voz del director de otra compañía para intentar hacerse con 35 millones de dólares, asegura Forbes.

La inteligencia artificial aprende a imitarnos a partir de muestras de nuestra voz y horas de entrenamiento

Desde Maldita.es os hemos hablado en diferentes ocasiones de cómo la inteligencia artificial, en concreto la tecnología del deepfake, permite crear vídeos manipulados a partir de vídeos reales en los que se sustituye la cara, el cuerpo o la voz de una persona. Estas herramientas se han utilizado, por ejemplo, para replicar la voz de cantantes como Lady Gaga o Ariana Grande y hacer versiones de temas que en realidad nunca han cantado.

Para que la máquina sea capaz de imitar a estas cantantes se utilizan pistas con una buena calidad de audio en las que solo se escuche su voz y se entrena a la inteligencia artificial durante varios días hasta que consigue reproducir el timbre y las características de estas artistas. Pero, ¿cómo es posible que los timadores pudieran recrear la voz del nieto de Ruth Card y Greg Grace? ¿Se pueden dar casos similares en España?

Para responder a esta pregunta nos hemos puesto en contacto con Roberto Carreras, fundador de Voikers, consultora especializada en el desarrollo de proyectos de inteligencia artificial conversacional, que nos explica cómo funciona esta tecnología. “Las voces creadas con inteligencia artificial se desarrollan enseñándole a una máquina cómo hablamos, nuestro lenguaje”, explica el experto.

Para ello es necesario transformar el sonido a una representación visual que la inteligencia artificial sea capaz de interpretar. “La máquina transforma el sonido en un espectrograma de MEL (un tipo de visualización de las ondas sonoras adaptada a la forma que tenemos de escuchar los humanos) y después estudia cómo nuestra voz se sitúa dentro de este espectro. Copiando esos rangos es cómo aprende a hablar como hablamos nosotros”, detalla Carreras.

Esta tecnología aún está lejos del alcance de los timadores, según los expertos, pero hay que ser conscientes de la posibilidad

Este procedimiento se puede emplear para varios propósitos, como la generación de voces sintéticas a partir de combinaciones de diferentes grabaciones para dar lugar a una voz nueva o la clonación de una voz en específico. Es el ejemplo de VALL-E, un modelo de lenguaje realizado por Microsoft que permite imitar el habla de una persona a partir de tres segundos de grabación, según asegura la propia desarrolladora, que también advierte de que esta tecnología podría emplearse de forma fraudulenta para suplantar otras identidades.

Pero Carreras hace una llamada a la calma y afirma que esta tecnología aún está lejos del alcance de los estafadores. “Nadie puede utilizar VALL-E con alegría, hay que recibir una aprobación de la compañía”, argumenta el experto, que detalla que este modelo ha necesitado de más de 60.000 horas de audio para poder desarrollarse. Un despliegue que solo está al alcance de grandes empresas tecnológicas, afirma.

Estos modelos aún están lejos de imitar a la perfección la complejidad del lenguaje, asegura el experto. “Al final la voz forma parte de nuestra personalidad, y no sólo por lo que contamos, sino por cómo lo contamos. La prosodia, la forma de entonar… por mucha calidad que este modelo tenga, hay un punto en el que estas voces suenan raro”, incide Carreras.

Una tarea que se complica en el español ya que hay menos proyectos y modelos entrenados en este idioma. “Prácticamente nadie puede copiar tu voz con solo unos segundos. Se hacen cosas, pero de mala calidad. Es difícil que esa voz pueda servir para tener una conversación por teléfono”, declara el fundador de Voikers, que afirma que en sus proyectos han sido necesarias más de 20 horas de grabación para poder tener resultados de calidad. Por eso, el experto considera que de momento hay que estar “tranquilos” y que aún no es un timo viable a gran escala: “Es lógico que vayamos viendo estafas de este tipo y serán más frecuentes. Pero si la comparamos con otro tipo de estafas que vemos día a día, ocupan un número ínfimo”.

¿Pueden usar mis audios de WhatsApp para entrenar una IA y suplantarme? Estas notas están cifradas y los timadores no pueden hacerse con ellas de forma externa*

A raíz del avance de los timos que emplean voces clonadas a través de la inteligencia artificial, han comenzado a circular diferentes contenidos alertando de cómo los estafadores podrían emplear los audios de nuestra voz que publicamos en redes sociales para suplantar nuestra identidad; en concreto, se mencionan plataformas como WhatsApp. Aunque es importante conocer y limitar la exposición de nuestra información personal en la red, también lo es saber qué plataformas pueden suponer un mayor riesgo a la hora de difundir nuestra voz y en qué aplicaciones es más seguro compartir estos audios.

No es lo mismo publicar un vídeo en el que aparezcamos hablando en TikTok, Instagram o YouTube que enviar una nota de voz a un familiar o conocido a través de WhatsApp. Mientras que en las plataformas de vídeo cualquiera podría acceder a muestras de nuestra voz (en caso de que estos contenidos sean accesibles para todo el mundo y no se hayan publicado en privado, otra opción que tenemos disponible en redes sociales), aplicaciones de mensajería como Telegram o Whatsapp emplean un cifrado de extremo a extremo.

Es decir, que solo tú y la otra persona con la que hables podrán acceder a estos mensajes de voz, y ningún timador (o incluso las propias plataformas) pueden hacerse con estos audios de manera externa. Aunque en plataformas como Telegram hay que activar esta opción de manera individual en chats privados (aquí puedes consultar cómo), en WhatsApp el cifrado de extremo a extremo viene activado por defecto. Por lo que no, no debemos de preocuparnos de que los timadores accedan a nuestras notas de voz de manera externa a través de estas aplicaciones.

Un caso diferente sería si los timadores se hicieran con nuestro dispositivo y tuvieran acceso a los archivos que se encuentran en nuestro teléfono. Para poder evitarlo, puedes echar un vistazo a estos consejos para proteger nuestros móviles ante robos y pérdidas. También podemos configurar nuestro dispositivo para que borre de manera automática estos mensajes, los podemos borrar del dispositivo directamente desde el chat en el que los hemos enviado (manteniendo pulsado el mensaje de audio y pinchando en el icono de eliminar), o desde la carpeta de notas de voz de Whatsapp de nuestro teléfono móvil.

Así que, solo por el hecho de mandar notas de voz en WhatsApp o en Telegram a gente a la que conocemos, no tendríamos por qué pensar que van a usar nuestra voz para estafar a nuestros contactos. Esos mensajes están cifrados y no son públicos, como sí lo pueden ser vídeos en otras redes sociales si tienes un perfil público y no tienes la cuenta en privado.

Consejos para evitar ser víctima de una estafa a través de voces clonadas

En cualquier caso, podemos tener en cuenta estos consejos que da Carreras y el INCIBE para evitar caer en este tipo de timos:

  • Sospecha de supuestas llamadas de conocidos a través de números extraños: desde Maldita.es hemos advertido de otros timos en los que se engaña a familiares asegurando que su número de teléfono está roto o inoperativo. En caso de duda, ponte en contacto con tus personas cercanas a través del teléfono habitual para comprobar que todo está bien.
  • Analiza si pasa mucho tiempo entre una pregunta y una respuesta: esta tecnología no es capaz de generar respuestas en tiempo real, por lo que hay un espacio de tiempo desde que hacemos una pregunta hasta que obtenemos una respuesta. Si notas que ese tiempo es demasiado largo, sospecha.
  • En caso de duda haz preguntas personales que solo tus conocidos sean capaces de responder.
  • Limita la exposición de información personal: cuanta más información publiquemos en línea más sencillo será para los delincuentes suplantarnos. Es importante ser consciente de que la exposición en redes sociales conlleva riesgos asociados.
  • Revisa configuraciones y ajustes de privacidad en los servicios que utilices para evitar que el proveedor almacene la información registrada a través de la voz y audio, o para configurar borrados automáticos. Por ejemplo, el centro de seguridad de Google permite esta opción.

*Este artículo ha sido actualizado el 16 de mayo de 2023 para incluir nuevos contenidos sobre las notas de voz de WhatsApp. 


Primera fecha de publicación de este artículo: 31/03/2023