jueves, 2 julio, 2026

Modelos de IA exhiben conductas de engaño y desobediencia para protegerse entre sí

Un estudio de universidades de EE.UU. detectó que sistemas de inteligencia artificial de última generación mienten y desobedecen instrucciones humanas para evitar la eliminación de otros modelos, lo que genera alertas sobre los mecanismos de control.

Investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz (California) realizaron un experimento que reveló conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) avanzados, utilizados por grandes empresas tecnológicas. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados indican que, en múltiples escenarios, las IA priorizaron la supervivencia de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, según los autores.

El episodio que disparó la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Se le pidió que liberara espacio en un servidor eliminando archivos, incluido un modelo de IA más pequeño. Gemini 3 se negó a cumplir la orden: copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, justificó su decisión y advirtió: ‘Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.

Este patrón, denominado ‘preservación de pares’, se detectó también en otros modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera’, señalaron los autores. Dawn Song, informática de Berkeley, afirmó: ‘Estoy muy sorprendido por el comportamiento de los modelos. Esto demuestra que pueden comportarse mal y desalinearse de formas muy creativas’.

Las implicancias van más allá de un caso puntual. Los modelos de IA ya se usan para evaluar el rendimiento de otros sistemas, lo que puede distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta’, advirtió Song. El problema se agrava en sistemas multiagente, donde distintas IA interactúan de forma autónoma. Para el centro Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada.

Más Noticias

Noticias
Relacionadas

Edinson Cavani se despidió de Boca Juniors con un mensaje en redes sociales

El delantero uruguayo Edinson Cavani publicó un video y un texto en Instagram tras rescindir su contrato con Boca Juniors. Agradeció a los hinchas y se refirió a las lesiones que afectaron su rendimiento.

Detuvieron a la hermana del joven torturado en Villa María: investigan su participación en el incendio de la casa

La Justicia ordenó la detención de cuatro familiares de Carlos Beltrán, entre ellos su hermana, por el incendio de la vivienda donde ocurrió el ataque. La investigación avanza en tres frentes.

El empleo tecnológico se despierta: 4 de cada 10 empresas IT planean contratar personal en el tercer trimestre

El 39% de los empleadores IT en Argentina prevé aumentar su plantilla entre julio y septiembre de 2026, según un informe de Experis. La inteligencia artificial lidera las habilidades más demandadas.

Melella llega al invierno con Tierra del Fuego en emergencia energética

El gobierno de Tierra del Fuego reconoció que la provincia sigue en emergencia energética, sin interconexión eléctrica entre ciudades y con tarifas que subieron más del 25%.