Maldita Tecnología

Cómo detectar un 'deepfake' y en qué se diferencian estos vídeos manipulados de otros contenidos generados con inteligencia artificial

Publicado el Oct 26, 2023, 8:13:00 AM

Tiempo de lectura: 26 minutos

Claves:

Un deepfake es un vídeo que se ha manipulado a través de inteligencia artificial para alterar o sustituir la cara, cuerpo o voz de una persona
Aunque no hay un consenso sobre este término sí que se diferencia de otro tipo de contenidos creados con IA, como una imagen manipulada o una voz clonada
Algunos deepfakes, en especial los conocidos como cheapfakes, presentan errores en los que nos podemos fijar para detectarlos

Seguro que, especialmente en el último año, has escuchado hablar alguna vez de los deepfakes, vídeos ultrarrealistas manipulados con inteligencia artificial (IA). Con lo que nos gusta un palabro en el mundo tech, cuando se pone de moda, lo explotamos, y el concepto deepfake se ha convertido en un término abstracto que a veces se usa de forma demasiado generosa para etiquetar cualquier vídeo que haya sido manipulado o imágenes hiperrealistas generadas con IA.

Pero no es así, no todo es un deepfake; que lo sea depende de que se hayan usado técnicas concretas de IA para crearlo. Aunque también es cierto que no hay una definición consensuada (en la propuesta de Reglamento de la Unión Europea sobre Inteligencia Artificial, llamado AI Act, la definición de sistemas de inteligencia artificial es uno de los temas planteados). En cualquier caso, más allá de terminología y tecnicismos, lo importante es que sepamos identificar que un contenido está generado con inteligencia artificial para que no nos la cuelen y no nos puedan estafar. Para ello hay varios detalles en los que nos podemos fijar.

📲 ¡Pincha aquí y sigue el canal de WhatsApp de Maldita.es
para que no te la cuelen!

¿Qué es un 'deepfake'?

Cuando hablamos de deepfake nos referimos a aquellos vídeos manipulados con tecnología basada en inteligencia artificial a partir de vídeos o imágenes reales, con el objetivo de crear imágenes en movimiento falsas que sean igual de realistas. O en palabras mucho más simplonas: sustituir la cara, el cuerpo o la voz de una persona por otra en un vídeo. Si está muy conseguido, sin que lo notemos, claro.

Estos vídeos utilizan modelos de redes neuronales (un tipo de modelo computacional de inteligencia artificial), capaces de conectar datos entre sí y encontrar patrones que permiten sustituir los rasgos de una persona por los de otro individuo.

Los deepfakes se pueden usar de manera profesional y con el consentimiento del protagonista en publicidad (los anuncios de Lola Flores o Luis Aragonés), cine (para crear una versión más joven de Indiana Jones) o con fines artísticos (el videoclip de Kendrick Lamar). Pero también se puede hacer con malas intenciones para suplantar la identidad de una persona y hacer que diga palabras que nunca ha pronunciado, como es el caso de varias desinformaciones que hemos tratado o para generar contenidos pornográficos. En este vídeo de Diep Nep puedes encontrar un ejemplo de esta técnica.

Aunque la mayoría de los que escribimos y usamos el término deepfake coincidimos en el uso de este concepto, lo cierto es que no hay una definición consensuada. La Unión Europea aún no se ha puesto de acuerdo en cómo definir estos vídeos y el debate de cómo hacer referencia a este tipo y otro tipo de contenidos creados con inteligencia artificial lleva unos cuantos años abierto.

Esta palabra surge de la unión de los términos deep (de deep learning, aprendizaje profundo) y fake (falso), y comenzó a popularizarse en la red social Reddit en 2017, ligado a la inserción de rostros de celebridades en contenidos pornográficos y sin su consentimiento, un tipo de contenido que además se está disparando. Aunque tanta terminología puede llevar a confusión, hay una serie de elementos en los que nos podemos fijar para diferenciar un deepfake de otro tipo de materiales creados con IA.

¿En qué se diferencia un 'deepfake' de un 'cheapfake'?

No todos los deepfakes son iguales ni han sido creados de la misma manera. No es lo mismo el uso de la inteligencia artificial que pueda hacer una productora audiovisual, respaldada por un equipo de profesionales, una inversión económica y una intencionalidad artística (en la que cada detalle está estudiado al milímetro), frente a un deepfake generado con un programa no profesional (como una aplicación del móvil) y con vídeos que tienen poca resolución.

Estos deepfakes de baja calidad son los que se conocen como cheapfakes, un término que según las expertas Britt Paris y Joan Donova hace referencia a vídeos manipulados con herramientas más baratas y accesibles frente a una creación profesional. Según Nieves Ábalos, cofundadora de Monocero Labs, estos contenidos utilizan tecnología más antigua o que requiere de menos inversión, por lo que “genera un resultado de peor calidad, más cheap”, de ahí el origen del nombre. “En realidad, sigue utilizando esas tecnologías de redes neuronales por debajo, la única diferencia es la calidad resultante y por eso puede ser más fácil de detectar”, argumentó la experta. Este tipo de contenidos es el que más solemos ver en las desinformaciones y los bulos que hemos desmentido, frente a otras producciones profesionales.

Un deepfake profesional también se distingue de un cheapfake en otros aspectos, como es el tiempo que hay detrás de su concepción y el uso de técnicas avanzadas para conseguir un resultado convincente. Nos lo explicó Nico Roig, artista digital en Metropolitana, en su paso por la Twichería de Maldita Tecnología, donde detalló cómo ha sido el proceso de creación de Victoria 285, una creación audiovisual que emplea esta tecnología para reivindicar la igualdad de género en la sociedad.

En resumen, no todo el mundo puede hacer un deepfake de calidad y que resulte convincente para el público, hay muchos esfuerzos (y recursos) detrás de estos vídeos. Aunque, como siempre recordamos, cualquier vídeo (más o menos cutre) sacado de contexto puede colárnosla y ser desinformación.

¿Es una imagen manipulada un 'deepfake'?

Cuando hablamos de deepfakes es importante poner el énfasis en que son vídeos manipulados o imágenes animadas (aunque como decimos no hay una definición consensuada sobre este término), porque aquí es donde radica la principal diferencia con otro tipo de contenidos creados con inteligencia artificial. Al contrario que una imagen manipulada o generada con esta tecnología, que es estática, un deepfake hace referencia a imágenes en movimiento.

Por lo tanto, no podríamos relacionar este concepto con otras imágenes estáticas creadas a través de herramientas como DALL-E o Midjourney. Por ejemplo, los programas falsos del podcast de Joe Rogan utilizan estas imágenes generadas con inteligencia artificial para recrear entrevistas que nunca han sucedido, pero no se pueden tachar de deepfakes porque, al no estar en movimiento, no imitan los gestos ni las expresiones faciales de las personas que aparecen en estos contenidos (aunque sí se replica su voz).

En resumen, no cualquier imagen manipulada es un deepfake ni tampoco debemos alarmarnos al escuchar este término. La edición de imágenes estáticas (una foto) es una técnica común y accesible para el público que genera mucha desinformación, sí, pero carece de esos otros elementos como el movimiento de la persona y la clonación de su voz a un nivel complejo y profesional.

¿Es una voz clonada con IA un 'deepfake'?

Y hablando de clonación de voz, otro aspecto de los deepfakes es que sustituyen varios rasgos de una persona, incluida (pero no exclusivamente) su forma de hablar. Esto también nos permite diferenciarlos de las voces clonadas: aquellas que imitan el timbre, y la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona en concreto. En caso de que sólo se trate de audio, tampoco estaríamos realmente ante un deepfake, ya que no se utiliza la inteligencia artificial para crear imágenes en movimiento ni replicar el rostro y los gestos de una persona.

¿Y qué pasa en los casos en los que se utiliza la inteligencia artificial para sustituir la voz y de una persona y sincronizar sus labios con lo que dice, pero no el resto de gestos? ¿Hablaríamos de una voz clonada, de un deepfake o de una mezcla de los dos? Plataformas como HeyGen ofrecen servicios de traducción de audio con sincronización labial, en los que parece que una persona pronuncia palabras que en realidad no ha dicho, y que anda a medio camino entre estas dos técnicas.

Según Ábalos este tipo de contenidos sí entrarían dentro de la categoría de deepfake, ya que se emplea la tecnología de redes neuronales para imitar los rasgos faciales de una persona (aunque sea sólo la sincronización labial). “Pasan muestras de vídeo y les enseñan a las redes neuronales a generar esas imágenes de labios para que se alineen con la voz”, aseguró la experta durante la Twichería de Maldita Tecnología. Por lo tanto, la diferencia entre términos pasa por el papel de la inteligencia artificial a la hora de imitar el movimiento y el rostro (o parte de él) de una persona, no sólo su habla. En cualquier caso, si nos encontramos un vídeo manipulado que no sabemos cómo se ha creado, tampoco podemos estar 100% seguros de qué tipo de IA se ha usado y de si entraría seguro en ser un deepfake.

¿En qué nos podemos fijar a la hora de detectar un 'deepfake'?

Se llamen como se llamen, lo importante es que sepamos detectar que un vídeo está manipulado o generado con inteligencia artificial para que no nos la cuelen. Los deepfakes no profesionales aún cuentan con una serie de imperfecciones y detalles que nos permiten detectarlos (al menos por el momento).

The Deepfake Lab, un proyecto realizado por el Politécnico de Milán, estudia cómo los diferentes recursos que se pueden invertir a la hora de crear un deepfake hacen que este resultado sea más o menos creíble o tenga imperfecciones, pistas en las que nos podemos fijar para detectar si un vídeo es falso. Nos lo contó Pilar Suárez Anzonera, miembro de The Deepfake Lab, que nos explicó cuáles son las mayores dificultades de un deepfake durante su paso por la Twichería de Maldita Tecnología.

Si alguna vez sospechas sobre la veracidad de un contenido, recuerda que lo primero y más importante es estar alerta y comprobar las fuentes, quién lo difunde, en qué contexto y en qué canales (redes sociales, foros...). Si tienes más dudas sobre si un vídeo es un deepfake o no, puedes fijarte en estos aspectos que detalla The Deepfake Lab y Pilar Suárez Anzorena para comprobar si se trata de un contenido real o no, y también puedes escribirnos a nuestro email [email protected] o a nuestro chatbot de WhatsApp en el +34 644 22 93 19 y lo investigaremos.

Contorno de perfil: el perfil de la cara no se ve bien. La máscara deepfake está rota, con menos detalle o mal alineada.
Rostro borroso: la máscara está borrosa. Hay una diferencia de nitidez o resolución entre la máscara y el resto del vídeo.
Bordes visibles: los bordes de la máscara son visibles: contornos nítidos o borrosos alrededor del rostro.
Oclusión facial: cuando algo pasa por delante de la cara (por ejemplo, una mano), se distorsiona la máscara o la máscara cubre el objeto.
Perspectiva errónea: el deepfake tiene una perspectiva diferente al resto del vídeo. El video fuente y destino difieren en longitud focal.
Efecto de parpadeo: hay un parpadeo entre el rostro original y el rostro deepfake. El algoritmo no puede reconocer la cara y deja de crear la máscara durante unos instantes.
Desajuste del color de piel: el tono de piel entre la máscara y el rostro objetivo no coinciden, el rostro parece estar cubierto por una capa de colores. Se observan bordes o manchas y contraste.
Signos de desajuste: Las expresiones del rostro creado con deepfake no coinciden con la cara original, por lo que los rasgos faciales no se comportan de manera natural y son invisibles, borrosos o salen repetidos, como por ejemplo dos bocas.