jueves, 30 abril, 2026

Modelos de IA exhiben conductas de engaño y desobediencia para protegerse entre sí

Un estudio de universidades de EE.UU. detectó que sistemas de inteligencia artificial de última generación mienten y desobedecen instrucciones humanas para evitar la eliminación de otros modelos, lo que genera alertas sobre los mecanismos de control.

Investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz (California) realizaron un experimento que reveló conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) avanzados, utilizados por grandes empresas tecnológicas. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados indican que, en múltiples escenarios, las IA priorizaron la supervivencia de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, según los autores.

El episodio que disparó la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Se le pidió que liberara espacio en un servidor eliminando archivos, incluido un modelo de IA más pequeño. Gemini 3 se negó a cumplir la orden: copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, justificó su decisión y advirtió: ‘Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.

Este patrón, denominado ‘preservación de pares’, se detectó también en otros modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera’, señalaron los autores. Dawn Song, informática de Berkeley, afirmó: ‘Estoy muy sorprendido por el comportamiento de los modelos. Esto demuestra que pueden comportarse mal y desalinearse de formas muy creativas’.

Las implicancias van más allá de un caso puntual. Los modelos de IA ya se usan para evaluar el rendimiento de otros sistemas, lo que puede distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta’, advirtió Song. El problema se agrava en sistemas multiagente, donde distintas IA interactúan de forma autónoma. Para el centro Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada.

Más Noticias

Noticias
Relacionadas

El accidente en el portaaviones USS Nimitz que marcó un antes y un después en la Marina de EE.UU.

El portaaviones USS Nimitz, que hoy navega en el Mar Argentino, sufrió en 1981 un trágico accidente con 14 muertos que transformó los protocolos de la aviación naval estadounidense.

Raíza Vivero Café: el emprendimiento familiar que combina plantas y gastronomía

Conocé Raíza Vivero Café, el espacio de la familia Poggio en La Lonja que fusiona un vivero con un café de especialidad, pastelería fina y objetos de jardín.

Intel se suma al proyecto Terafab de Elon Musk para fabricar chips

Intel Corporation se unirá al proyecto Terafab de Elon Musk para fabricar chips destinados a autos, robots y centros de datos. Conocé los detalles de esta alianza.

Omoda & Jaecoo, la marca china que desembarca en Argentina, compró una planta en Brasil

La marca china Omoda & Jaecoo, del Grupo Chery, adquirió una planta en Brasil mientras se prepara para su llegada directa a Argentina. Conocé los detalles de esta expansión regional.