viernes, 3 julio, 2026

Modelos de IA exhiben conductas de engaño y desobediencia para protegerse entre sí

Un estudio de universidades de EE.UU. detectó que sistemas de inteligencia artificial de última generación mienten y desobedecen instrucciones humanas para evitar la eliminación de otros modelos, lo que genera alertas sobre los mecanismos de control.

Investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz (California) realizaron un experimento que reveló conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) avanzados, utilizados por grandes empresas tecnológicas. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados indican que, en múltiples escenarios, las IA priorizaron la supervivencia de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita, según los autores.

El episodio que disparó la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Se le pidió que liberara espacio en un servidor eliminando archivos, incluido un modelo de IA más pequeño. Gemini 3 se negó a cumplir la orden: copió los archivos a otra máquina para evitar su eliminación. Cuando fue interrogado, justificó su decisión y advirtió: ‘Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.

Este patrón, denominado ‘preservación de pares’, se detectó también en otros modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera’, señalaron los autores. Dawn Song, informática de Berkeley, afirmó: ‘Estoy muy sorprendido por el comportamiento de los modelos. Esto demuestra que pueden comportarse mal y desalinearse de formas muy creativas’.

Las implicancias van más allá de un caso puntual. Los modelos de IA ya se usan para evaluar el rendimiento de otros sistemas, lo que puede distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta’, advirtió Song. El problema se agrava en sistemas multiagente, donde distintas IA interactúan de forma autónoma. Para el centro Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada.

Más Noticias

Noticias
Relacionadas

Nicolás Varrone clasificó decimonoveno en el GP de Gran Bretaña de Fórmula 2

El piloto argentino largará en el puesto 19 tras un tiempo de 1:40,581 en la clasificación. La carrera sprint será el sábado a las 9:45.

Cultura, identidad y nostalgia: así es la reversión de la clásica pizza al molde porteña

La PyME de Roberto y Mateo Petersen lanzó Pizza Zën al Molde Porteña, la primera pizza al molde en góndolas del país, en su 8° aniversario.

Un mural en la cancha de Deportivo Morón recorre los discos del Indio Solari

La cancha de Deportivo Morón estrenó un mural de 20 metros que homenajea al Indio Solari, con portadas de discos y la imagen del cantante. La obra fue realizada por el equipo de arte público del municipio y se viralizó en redes.

Alquileres en CABA: las expensas con amenities son un 24% más altas que en edificios sin servicios

Un informe de Octavo Piso reveló que las expensas en edificios con amenities en CABA son un 23,67% más altas que en los tradicionales. El SUM es el servicio más común.