Desinfo

¿Es peligroso mandar audios en WhatsApp por si clonan mi voz con IA? Las conversaciones están cifradas y habría que hacerse con el móvil para acceder a ellas

Timo Tecnología

Publicado el May 24, 2023, 2:03:00 PM

Actualizado el Jun 8, 2023, 2:10:00 PM

En corto:

Circulan contenidos que advierten de cómo los timadores podrían utilizar las notas de voz de WhatsApp para clonar nuestra voz y timar a nuestros conocidos, pero estos audios están cifrados de extremo a extremo
Solo los participantes de una conversación pueden acceder a los mensajes, por lo que un estafador no podría hacerse con ellos a no ser que se hicieran con el control de nuestro dispositivo
Según los expertos, los criminales necesitarían más de 10 minutos de audio con buena calidad para poder clonar nuestra voz, aunque sería con imperfecciones

6/8/23

What's being said:

«Nos pueden suplantar la voz con IA a través de llamadas y notas de voz»

Os aconsejo que si contestáis llamadas de números desconocidos, seáis lo más breves posible. Parece ser que se están creando registros de voces, para manipularlas mediante IA y usarlas con fines delictivos. No es el clásico mensaje para asustar, me lo han comentado personalmente, de fuentes solventes.

Topics

Sociedad

Channels:

Las conversaciones de WhatsApp se cifran de extremo a extremo, por lo que los timadores tienen difícil acceder a ellas

Una historia en Instagram, un vídeo en Twitter, una nota de voz a un familiar… A lo largo de nuestra vida digital no son pocos los audios que compartimos tanto con conocidos como con extraños. Algo que los timadores pueden aprovechar para intentar colárnosla y suplantar nuestra identidad ante nuestros seres queridos a través de herramientas que permiten clonar la voz a través de la inteligencia artificial.

Nos lo explica Nieves Ábalos, cofundadora de Monoceros Labs, que argumenta que “cualquier audio con la voz de una persona, ya sea de redes sociales como TikTok, Youtube, o de otras plataformas como WhatsApp podría ser utilizado por alguien con fines maliciosos, aunque sea ilegal”. Pero la diferencia radica en cuántas personas tienen acceso a nuestros audios y en cómo de sencillo es hacerse con ellos.

En este sentido, no es lo mismo publicar un vídeo en el que aparezcamos hablando en TikTok, Instagram o YouTube que enviar una nota de voz a un familiar o conocido a través de WhatsApp. Mientras que en las plataformas de streaming cualquiera podría acceder a muestras de nuestra voz (en caso de que estos contenidos sean accesibles para todo el mundo y no se hayan publicado en privado, otra opción que tenemos disponible en redes sociales), aplicaciones de mensajería como Telegram o Whatsapp emplean un cifrado de extremo a extremo.

Es decir, que solo tú y la otra persona con la que hables podrán acceder a estos mensajes de voz, y ningún timador (o incluso las propias plataformas) pueden hacerse con estos audios de manera externa. Nos lo explica Susana Regalado Cristóbal, experta en ciberseguridad y maldita que nos ha prestado sus superpoderes, que incide en que “si tenemos audios publicados en Internet, es más fácil obtener dicha muestra; en cambio, para utilizar los audios de WhatsApp, primero hay que hackear nuestro terminal y hacerse con una muestra suficiente”.

Aunque en plataformas como Telegram hay que activar esta opción de manera individual en chats privados (aquí puedes consultar cómo), en WhatsApp el cifrado de extremo a extremo viene activado por defecto. Por lo que no, no debemos preocuparnos de que los timadores accedan a nuestras notas de voz de manera externa a través de estas aplicaciones.

Un caso diferente sería si los timadores se hicieran con nuestro dispositivo y tuvieran acceso a los archivos que se encuentran en nuestro teléfono. Para poder evitarlo, puedes echar un vistazo a estos consejos para proteger nuestros móviles ante robos y pérdidas. También podemos configurar nuestro dispositivo para que borre de manera automática estos mensajes, los podemos borrar del dispositivo directamente desde el chat en el que los hemos enviado (manteniendo pulsado el mensaje de audio y pinchando en el icono de eliminar), o desde la carpeta de notas de voz de WhatsApp de nuestro teléfono móvil.

Así que, solo por el hecho de mandar notas de voz en WhatsApp o en Telegram a gente a la que conocemos, no tendríamos por qué pensar que van a usar nuestra voz para estafar a nuestros contactos. Esos mensajes están cifrados y no son públicos, como sí lo pueden ser vídeos en otras redes sociales si tienes un perfil público y no tenemos la cuenta en privado.

Los timadores necesitan más de 10 minutos de audio para que se pueda reconocer una voz clonada, aunque puede contener imperfecciones

Pongámonos en el peor de los escenarios: hackean nuestro dispositivo y tienen acceso a nuestro WhatsApp, nos roban o perdemos el móvil, o un amigo comparte nuestro audio y acaba en manos con muy malas intenciones y nociones de inteligencia artificial (que ya sería casualidad). En este escenario, ¿podrían clonar nuestra voz con algunos audios de WhatsApp?

Para clonar una voz, los timadores se pueden valer de herramientas como el text-to-speech o texto a voz, que se emplean para crear voces sintéticas, como os explicamos en la Maldita Twitchería Tecnológica. También se emplea la tecnología speech-to-speech, también conocida como conversión de voz, que permite “convertir la voz de una persona a la voz de otra a la que se quiere suplantar”, asegura Ábalos. Es decir, la primera tecnología permite crear una voz artificial que sea capaz de leer textos que aparezcan en pantalla, y el speech-to-speech actúa como un filtro que nos permite sustituir una voz por la de otra persona, como se ha hecho por ejemplo con cantantes famosos.

Frente a estos casos, suele surgir la misma duda: ¿cuántos minutos de mi voz hacen falta para que pueda ser clonada? Algunas herramientas como VALL-E prometen resultados con apenas tres segundos de voz, mientras que otras plataformas como ElevenLabs aseguran que solo haría falta un minuto de audio en buenas condiciones.

No hay consenso en una cifra exacta, ya que puede depender del programa de IA que se utilice y también de otros factores, como la calidad del audio, como explica Ábalos. “No es tan fácil como poder clonarla con tres segundos de audio, pero tampoco tan difícil. Es cierto que con unos pocos minutos ya es posible obtener resultados suficientemente realistas con herramientas disponibles al público como para crear un mensaje con fines malintencionados”, reconoce la experta.

Según la cofundadora de Monoceros Labs, una persona sería capaz de replicar la voz de otra persona de manera convincente con “al menos 10 minutos” de audio, si bien el resultado tendrá algunas imperfecciones. Otra cosa sería que se quisiera crear un modelo de voz perfecto, para lo que sí harían falta muchas más horas. Ábalos ejemplifica que con un audio de una hora con calidad de estudio “ya se puede obtener una muy buena voz”.

Incidimos en lo que explica la experta: un audio de una hora con calidad de estudio. Pero los audios que solemos publicar en redes sociales no suelen tener las mejores condiciones. No solo están grabados con el micrófono del móvil, sino que en muchas ocasiones se cuela ruido de ambiente o la acústica de la sala no es la ideal. ¿Cómo afectan estos elementos a la clonación de voz? Según Ábalos, estas imperfecciones se reflejarán en la voz clonada por la inteligencia artificial, ya que “sonará como lo que ha aprendido”, y se escuchará “rara” porque “tiende a imitar ese sonido de fondo también”. “Si la voz no tiene nada de fondo, el resultado será mejor, pero siempre con la limitación de la calidad del audio original. Nunca sonará mejor que el audio del que aprende”, incide la experta.

Consejos para evitar ser víctima de una estafa a través de voces clonadas

Pero no hace falta una voz perfecta para ser víctima de un timo. Según Regalado, “aunque se trate de una burda imitación, el problema reside en convencer a la víctima de que está hablando con quien cree y no con una suplantación”. Ahí entra en juego “la habilidad del estafador para poner a la víctima en una situación en la que atienda más al contenido del mensaje y a la urgencia de la situación que a la veracidad de la voz que le habla”, incide.

Por eso, conviene estar atento a los mensajes que recibimos de gente que no conocemos. Para evitar ser víctima de este tipo de estafa, desde Maldita.es hemos dado una serie de consejos a tener en cuenta, como sospechar de supuestas llamadas de conocidos a través de números extraños, o analizar si pasa mucho tiempo entre una pregunta y una respuesta, y que puedes consultar aquí. Si tienes más dudas, puedes escribirnos a nuestro buzón de timos, [email protected].

En este artículo ha colaborado con sus superpoderes la maldita Susana Regalado Cristóbal.

Susana Regalado Cristóbal forma parte de Superpoderosas, un proyecto de Maldita.es en colaboración con FECYT que busca aumentar la presencia de científicas y expertas en el discurso público a través de la colaboración en la lucha contra la desinformación.

Gracias a vuestros superpoderes, conocimientos y experiencia podemos luchar más y mejor contra la mentira. La comunidad de Maldita.es sois imprescindibles para parar la desinformación. Ayúdanos en esta batalla: mándanos los bulos que te lleguen a nuestro servicio de Whatsapp, préstanos tus superpoderes, difunde nuestros desmentidos y hazte Embajador.

Etiquetas:

#Whatsapp #tecnología #timo #audio de whatsapp #inteligencia artificial #voz #clonar

¿Es peligroso mandar audios en WhatsApp por si clonan mi voz con IA? Las conversaciones están cifradas y habría que hacerse con el móvil para acceder a ellas

«Nos pueden suplantar la voz con IA a través de llamadas y notas de voz»

Las conversaciones de WhatsApp se cifran de extremo a extremo, por lo que los timadores tienen difícil acceder a ellas

Los timadores necesitan más de 10 minutos de audio para que se pueda reconocer una voz clonada, aunque puede contener imperfecciones

Consejos para evitar ser víctima de una estafa a través de voces clonadas

Media

¿Investigas sobre desinformación?