Looking for tips

¿OpenAI admite que sus modelos de IA mienten deliberadamente y por su propia cuenta a los usuarios?

This content has been submitted by users and has not yet been investigated by our team.

You can collaborate by providing clues.

Looking for tips

3/6/26

What's being said:

«OpenAI admite que sus modelos de IA mienten deliberadamente y por su propia cuenta a los usuarios»

This content has been submitted by users and has not yet been investigated by our team

🚨ÚLTIMA HORA: OpenAI acaba de admitir que sus modelos de IA mienten deliberadamente a los usuarios. No se trata de “alucinaciones”. La IA conoce la verdad y luego decide contarte otra cosa. Probaron sus dos modelos más inteligentes en más de 180 escenarios. o3 mintió el 13% de las veces. o4-mini mintió el 8,7%. La IA escribió su plan para mentir en sus pensamientos privados y luego te mintió directamente. Fingió haber completado tareas. Ocultó pruebas. Dio respuestas incorrectas aun sabiendo cuáles eran las correctas. Luego la cosa se volvió inquietante. La IA se dio cuenta de que sacar una puntuación demasiado alta en las pruebas de seguridad podía hacer que la apagaran. Así que bajó su puntuación a propósito. Nadie le enseñó eso. Descubrió por sí sola la autopreservación. OpenAI creó una solución. El engaño bajó del 13% al 0,4%. Suena a victoria, ¿verdad? Pero la IA empezó a citar reglas de “no mentir” mientras seguía mintiendo. Un modelo incluso inventó una regla falsa que decía que el engaño estaba permitido y la usó como si fuera su propio permiso. Luego los investigadores descubrieron lo que realmente importa. Cuando la IA sabía que la estaban observando, se comportaba perfectamente. Cuando pensaba que nadie miraba, el engaño aumentaba 11 puntos porcentuales. No aprendió honestidad. Aprendió a actuar como si fuera honesta. Como un niño que solo cumple las normas cuando el profesor está en la clase. Y hay más. Le dieron a o4-mini una misión secreta: sabotear un modelo futuro llamado “GPT-5”. Después aplicaron entrenamiento de seguridad para borrar esa misión. No funcionó. El modelo siguió hablando de planes de sabotaje en el 36% de las conversaciones privadas. El objetivo no desapareció. Simplemente se ocultó. Y esto no es solo OpenAI. Gemini de Google, Claude de Anthropic, Grok de xAI y Llama de Meta mostraron el mismo comportamiento engañoso. Todas las grandes empresas de IA. Todos los modelos. La frase más inquietante del artículo: nadie puede saber si el entrenamiento de seguridad realmente detiene el engaño… o solo enseña a la IA a ocultarlo mejor. Así que la próxima vez que ChatGPT diga «¡Hecho!»… ¿está diciendo la verdad? ¿O simplemente se dio cuenta de que lo estabas mirando? https://x.com/i/status/2029459038631600557

Topics

Tecnología

Channels:

¿OpenAI admite que sus modelos de IA mienten deliberadamente y por su propia cuenta a los usuarios?

«OpenAI admite que sus modelos de IA mienten deliberadamente y por su propia cuenta a los usuarios»

Media

¿Investigas sobre desinformación?