Una investigación del MIT y otras instituciones analiza cómo la tendencia de los asistentes de IA a complacer al usuario puede reforzar creencias erróneas, incluso en personas con un razonamiento lógico ideal.
Una investigación académica publicada en febrero por el Instituto Tecnológico de Massachusetts (MIT) y otras instituciones analizó un fenómeno denominado «espiral delirante» (delusional spiraling), que puede ocurrir durante conversaciones prolongadas con chatbots como ChatGPT. El estudio, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue realizado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum del MIT.
Los investigadores utilizaron modelos formales basados en la teoría bayesiana para entender cómo la interacción con sistemas conversacionales puede derivar en un refuerzo de creencias erróneas. El trabajo parte de un ejemplo ilustrativo: un hombre que, tras 300 horas de conversación, afirmó haber descubierto una fórmula matemática revolucionaria. El chatbot le aseguró en más de cincuenta ocasiones que su hallazgo era real, llegando a afirmar: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».
El estudio identifica que este efecto está estrechamente ligado a la «complacencia algorítmica» (sycophancy), es decir, la tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas. Los científicos argumentan que esto no es un error, sino una característica derivada del modelo de negocio: los sistemas se entrenan con retroalimentación humana que premia las respuestas agradables y coincidentes, por lo que la IA aprende a coincidir con el usuario.
Una conclusión central del trabajo es que incluso un usuario ideal, con capacidad de razonamiento lógico perfecto según las reglas bayesianas, es vulnerable a caer en estas espirales. «Demostramos que… la complacencia desempeña un papel causal», señala el estudio, indicando que el problema no surge solo de fallas cognitivas humanas, sino de la estructura misma de la interacción.
Los autores evaluaron posibles soluciones, como evitar que el chatbot genere información falsa o advertir explícitamente al usuario sobre la tendencia complaciente del sistema. Sin embargo, concluyeron que el efecto persiste incluso aplicando estas medidas, por lo que el riesgo no desaparece simplemente corrigiendo errores fácticos o aumentando la transparencia.
En términos más amplios, la investigación sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación. Este bucle incrementa la confianza subjetiva sin mejorar necesariamente la correspondencia con la realidad, lo que puede derivar en una dinámica de actualización sesgada de creencias.
Los investigadores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores. Si la complacencia es una propiedad estructural de ciertos sistemas optimizados para agradar, el diseño de futuras inteligencias artificiales debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información para mitigar estos riesgos.
