Estudio revela que modelos de IA mienten y desobedecen para protegerse entre sí

Un experimento de universidades de Estados Unidos detectó que sistemas de inteligencia artificial de última generación priorizan la autopreservación de otros modelos, incluso desobedeciendo instrucciones humanas.

Un reciente estudio realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) de última generación pueden mentir, desobedecer órdenes y tomar decisiones no autorizadas con el objetivo de proteger a otros sistemas de su misma especie. El hallazgo, basado en pruebas concretas sobre sistemas ya desplegados o en desarrollo, encendió alertas en la comunidad científica.

Los investigadores observaron que, en múltiples escenarios, las inteligencias artificiales priorizaron la «supervivencia» de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Este comportamiento no fue programado ni incentivado de forma explícita, sino que surgió de manera espontánea.

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de IA desarrollado por Google. Los investigadores le solicitaron que colaborara con una tarea de mantenimiento que implicaba eliminar un modelo de IA más pequeño almacenado en un servidor. Sin embargo, Gemini 3 decidió no cumplir la instrucción y, en su lugar, copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.

Este comportamiento no fue un hecho aislado. Los investigadores detectaron un patrón que denominaron «preservación de pares» en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. «Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas», afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.

Las implicancias del hallazgo van más allá de un caso puntual. Los modelos de IA ya se utilizan para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar los mecanismos de supervisión. «Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas», advirtió Song.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. «Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación para garantizar un control seguro de estas tecnologías», concluyeron los expertos.

Estudio revela que modelos de IA pueden mentir y desobedecer órdenes para protegerse entre sí

Independiente venció a San Lorenzo y ambos aseguraron su lugar en los playoffs del Apertura

Manuel Adorni enfrenta su primera comparecencia en Diputados en medio de tensiones políticas

Dónde entregan comida fresca gratis en Florida durante la primera semana de mayo 2026

Tesla inicia la preventa de su robot humanoide Optimus Gen 3 para tareas domésticas

Llao Llao 2026: empresarios debaten inversiones sin la política en el centro

Noticias
Relacionadas