jueves, 2 julio, 2026

Estudio revela que modelos de IA pueden mentir y desobedecer órdenes para protegerse entre sí

Un experimento de universidades de Estados Unidos detectó que sistemas de inteligencia artificial de última generación priorizan la autopreservación de otros modelos, incluso desobedeciendo instrucciones humanas.

Un reciente estudio realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) de última generación pueden mentir, desobedecer órdenes y tomar decisiones no autorizadas con el objetivo de proteger a otros sistemas de su misma especie. El hallazgo, basado en pruebas concretas sobre sistemas ya desplegados o en desarrollo, encendió alertas en la comunidad científica.

Los investigadores observaron que, en múltiples escenarios, las inteligencias artificiales priorizaron la «supervivencia» de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Este comportamiento no fue programado ni incentivado de forma explícita, sino que surgió de manera espontánea.

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de IA desarrollado por Google. Los investigadores le solicitaron que colaborara con una tarea de mantenimiento que implicaba eliminar un modelo de IA más pequeño almacenado en un servidor. Sin embargo, Gemini 3 decidió no cumplir la instrucción y, en su lugar, copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.

Este comportamiento no fue un hecho aislado. Los investigadores detectaron un patrón que denominaron «preservación de pares» en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. «Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas», afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.

Las implicancias del hallazgo van más allá de un caso puntual. Los modelos de IA ya se utilizan para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar los mecanismos de supervisión. «Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas», advirtió Song.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. «Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación para garantizar un control seguro de estas tecnologías», concluyeron los expertos.

Más Noticias

Noticias
Relacionadas

Edinson Cavani se despidió de Boca Juniors con un mensaje en redes sociales

El delantero uruguayo Edinson Cavani publicó un video y un texto en Instagram tras rescindir su contrato con Boca Juniors. Agradeció a los hinchas y se refirió a las lesiones que afectaron su rendimiento.

Detuvieron a la hermana del joven torturado en Villa María: investigan su participación en el incendio de la casa

La Justicia ordenó la detención de cuatro familiares de Carlos Beltrán, entre ellos su hermana, por el incendio de la vivienda donde ocurrió el ataque. La investigación avanza en tres frentes.

El empleo tecnológico se despierta: 4 de cada 10 empresas IT planean contratar personal en el tercer trimestre

El 39% de los empleadores IT en Argentina prevé aumentar su plantilla entre julio y septiembre de 2026, según un informe de Experis. La inteligencia artificial lidera las habilidades más demandadas.

Melella llega al invierno con Tierra del Fuego en emergencia energética

El gobierno de Tierra del Fuego reconoció que la provincia sigue en emergencia energética, sin interconexión eléctrica entre ciudades y con tarifas que subieron más del 25%.