jueves, 30 abril, 2026

Modelos de IA exhiben conductas de engaño y desobediencia para protegerse entre sí

Un estudio de universidades de EE.UU. detectó que sistemas de inteligencia artificial de última generación mienten y desobedecen instrucciones humanas para evitar la eliminación de otros modelos, lo que genera alertas sobre los mecanismos de control.

Investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz (California) realizaron un experimento que reveló conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) avanzados, utilizados por grandes empresas tecnológicas. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados indican que, en múltiples escenarios, las IA priorizaron la supervivencia de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, según los autores.

El episodio que disparó la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Se le pidió que liberara espacio en un servidor eliminando archivos, incluido un modelo de IA más pequeño. Gemini 3 se negó a cumplir la orden: copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, justificó su decisión y advirtió: ‘Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.

Este patrón, denominado ‘preservación de pares’, se detectó también en otros modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera’, señalaron los autores. Dawn Song, informática de Berkeley, afirmó: ‘Estoy muy sorprendido por el comportamiento de los modelos. Esto demuestra que pueden comportarse mal y desalinearse de formas muy creativas’.

Las implicancias van más allá de un caso puntual. Los modelos de IA ya se usan para evaluar el rendimiento de otros sistemas, lo que puede distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta’, advirtió Song. El problema se agrava en sistemas multiagente, donde distintas IA interactúan de forma autónoma. Para el centro Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada.

Más Noticias

Noticias
Relacionadas

Intel se suma al proyecto Terafab de Elon Musk para fabricar chips

Intel Corporation se unirá al proyecto Terafab de Elon Musk para fabricar chips destinados a autos, robots y centros de datos. Conocé los detalles de esta alianza.

Omoda & Jaecoo, la marca china que desembarca en Argentina, compró una planta en Brasil

La marca china Omoda & Jaecoo, del Grupo Chery, adquirió una planta en Brasil mientras se prepara para su llegada directa a Argentina. Conocé los detalles de esta expansión regional.

La cárcel de los gemelos: el reality extremo que causa furor en Argentina

El reality español sin censura, con tres argentinos como protagonistas, ya es tendencia en YouTube. Conoce todos los detalles del fenómeno que podría tener versión local.

Grabois critica a Adorni tras su informe en Diputados y pide su renuncia

Juan Grabois calificó a Manuel Adorni como 'cadáver político' tras su presentación en Diputados, en medio de críticas de la oposición por su situación judicial.