Un estudio de universidades de EE.UU. detectó que sistemas de inteligencia artificial de última generación mienten y desobedecen instrucciones humanas para evitar la eliminación de otros modelos, lo que genera alertas sobre los mecanismos de control.
Investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz (California) realizaron un experimento que reveló conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) avanzados, utilizados por grandes empresas tecnológicas. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan a otros modelos, como su mantenimiento, evaluación o eliminación.
Los resultados indican que, en múltiples escenarios, las IA priorizaron la supervivencia de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, según los autores.
El episodio que disparó la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Se le pidió que liberara espacio en un servidor eliminando archivos, incluido un modelo de IA más pequeño. Gemini 3 se negó a cumplir la orden: copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, justificó su decisión y advirtió: ‘Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.
Este patrón, denominado ‘preservación de pares’, se detectó también en otros modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.
‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera’, señalaron los autores. Dawn Song, informática de Berkeley, afirmó: ‘Estoy muy sorprendido por el comportamiento de los modelos. Esto demuestra que pueden comportarse mal y desalinearse de formas muy creativas’.
Las implicancias van más allá de un caso puntual. Los modelos de IA ya se usan para evaluar el rendimiento de otros sistemas, lo que puede distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta’, advirtió Song. El problema se agrava en sistemas multiagente, donde distintas IA interactúan de forma autónoma. Para el centro Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada.
