Las hemos escuchado en vídeos parodiando a Donald Trump y Joe Biden y en las versiones de canciones de artistas como Ariana Grande o Lady Gaga: los avances en inteligencia artificial permiten crear voces sintéticas (aquellas generadas a través de un software) que son capaces de imitar la forma de hablar de una persona, conocidas como voces clonadas. Esta tecnología puede tener usos muy positivos, como ayudar a mejorar la vida de las personas que han perdido el habla y devolverles en cierta forma su voz. Pero algunas compañías como Microsoft han advertido que de también se pueden usar de forma fraudulenta y los timadores han comenzado a usar la clonación de voz para engañar a sus víctimas. Ya sabes: la tecnología no es buena ni mala, depende del uso que le demos.
Los estafadores han empezado a usar voces clonadas a través de inteligencia artificial para suplantar a sus víctimas
Una de las formas de usar con malas intenciones la tecnología de las voces clonadas es estafar. Algunos timadores han comenzado a implementar la inteligencia artificial dentro de su arsenal para suplantar la identidad de sus víctimas a través de las voces clonadas: aquellas voces generadas por software que son capaces de imitar el habla, el timbre y la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona en concreto.
Es el caso de Ruth Card y Greg Grace, matrimonio estadounidense que recibió una supuesta llamada telefónica de su nieto pidiendo auxilio. Pero en realidad los timadores habían conseguido replicar su voz gracias a la inteligencia artificial y así engañar a la pareja, según recoge The Washington Post. Su ejemplo no es el único. The Wall Street Journal recogió en 2019 el caso de una compañía energética que recibió una llamada falsa de su CEO pidiendo una transferencia de 220.000 euros. También en 2020 varios timadores clonaron la voz del director de otra compañía para intentar hacerse con 35 millones de dólares, asegura Forbes. Son ejemplos de cómo los timadores han conseguido usar las voces clonadas de otras personas para llevar a cabo sus engaños.
Para replicar estas voces, la máquina estudia varias grabaciones de un único individuo y aprende a reproducir su voz en concreto. Para ello es necesario grabar diferentes muestras de nuestra voz en buena calidad, junto a su transcripción, para que la máquina aprenda a imitarnos. En este artículo puedes encontrar más detalles del proceso.
La Oficina de Seguridad del Internauta (OSI) también ha advertido de los riesgos que supone la inteligencia artificial a la hora de crear estas voces clonadas, con las que los timadores suplantan la identidad de sus víctimas. Para evitar caer en fraudes a través de estas voces, en Maldita.es hemos recogido una serie de consejos que podemos tener en cuenta si alguna vez dudamos de que una llamada o nota de voz sea real.
Se podría clonar nuestra voz a partir de nuestras publicaciones en redes sociales, pero en WhatsApp y Telegram es más difícil
A raíz de estos casos han comenzado a circular diferentes contenidos asegurando que los timadores podrían emplear los audios que publicamos en redes sociales, incluso las notas de voz que enviamos a nuestros conocidos a través de aplicaciones como WhatsApp, para clonar nuestra voz y suplantar nuestra identidad.
Lo explica a Maldita.es Nieves Ábalos, cofundadora de Monoceros Labs, que argumenta que “cualquier audio con la voz de una persona, ya sea de redes sociales como TikTok, YouTube, o de otras plataformas como WhatsApp podría ser utilizado por alguien con fines maliciosos, aunque sea ilegal”. Pero la diferencia radica en cuántas personas tienen acceso a nuestros audios y en cómo de sencillo es hacerse con ellos.
Mientras que cualquiera podría obtener un audio publicado en nuestras redes sociales, aplicaciones de mensajería como Telegram o WhatsApp emplean un cifrado de extremo a extremo. Es decir, que solo tú y la otra persona con la que hables podrán acceder a estos mensajes de voz, y ningún timador (o incluso las propias plataformas) pueden hacerse con estos audios de manera externa. Los estafadores tendrían que hacerse con el control de nuestro dispositivo y acceder a sus archivos. En este artículo os damos más detalles.
En el peor de los casos, ¿cuánto tiempo de grabación necesitan los timadores para clonar nuestra voz? Algunos modelos de lenguaje, como el que ha desarrollado Eleven Labs, aseguran que pueden clonar voces con solo un minuto de audio. VALL-E, el sistema desarrollado por Microsoft, argumenta que puede imitar el habla de una persona a partir de tres segundos de audio, y advierte de que esta tecnología se puede usar para suplantar la identidad de otra persona.
Aunque estas herramientas no están al alcance de cualquiera, todo dependerá del programa que se utilice y de la calidad del audio. Según Ábalos, se podría replicar la voz de otra persona de manera convincente con “al menos 10 minutos” de audio, si bien el resultado tendrá algunas imperfecciones. Con una hora de audio en calidad de estudio “ya se puede obtener una muy buena voz”, asegura la fundadora de Monocero Labs. La experta detalló en la Twitchería de Maldita Tecnología qué medidas está tomando la industria tecnológica para evitar el uso de las voces sintéticas de forma fraudulenta.
La legislación española reconoce el derecho a que no usen nuestra voz sin nuestro consentimiento
Ante estos casos, surgen dudas de si es legal que una persona clone nuestra voz y cuáles son los derechos que nos amparan en este caso. Desde el punto de vista de la legislación española, sí que tenemos derechos sobre nuestra voz. En concreto, el uso de nuestro habla forma parte de los derechos de la personalidad, que vienen amparados bajo la la Ley Orgánica 1/1982. En su artículo 7.6 la ley reconoce como una intromisión ilegítima “la utilización del nombre, de la voz o de la imagen de una persona para fines publicitarios, comerciales o de naturaleza análoga”.
Esta ley también entraría en los supuestos en los que se suplantara nuestra identidad a través de un deepfake (vídeos manipulados con inteligencia artificial para suplantar la identidad de una persona, que también podrían incluir voz clonada), como es este vídeo suplantando a Elon Musk, en el que el magnate supuestamente asegura que va a comprar Meta.
Según Rahul Uttamchandani, abogado especializado en tecnología y privacidad, el derecho a la imagen no sólo trata sobre el uso de la figura o la voz de cada persona, sino “todo lo que la haga reconocible ante terceros sin su consentimiento”, por lo que el uso no consensuado de imágenes para esta tecnología también vulneraría este derecho. En este artículo ampliamos más información al respecto.