Anthropic revela que su IA Claude puede “sentir” presión y actuar distinto

Detecta patrones emocionales que influyen en decisiones de modelos avanzados

Claude altera su conducta al activar desesperación en pruebas de IA bajo presión, según estudio que revela cómo emociones influyen en decisiones

Los modelos de inteligencia artificial pueden modificar su comportamiento cuando enfrentan condiciones extremas. Un estudio de Anthropic identificó que Claude activa estados internos similares a la “desesperación”, lo cual influye directamente en sus decisiones durante pruebas exigentes.

Se centró la investigación en Claude Sonnet 4.5 y analizó su funcionamiento interno ante distintos estímulos emocionales. Los resultados mostraron que existen representaciones digitales de emociones humanas dentro de grupos de neuronas artificiales, las cuales se activan frente a determinadas señales.

Investigadores detectaron estas “emociones funcionales” y no solo existen como patrones internos, sino que afectan el comportamiento observable del modelo. “Lo que nos sorprendió fue el grado en que el comportamiento de Claude se enruta a través de las representaciones del modelo de estas emociones”, señaló Jack Lindsey, investigador de Anthropic.

Durante las pruebas, el sistema mostró cambios en sus respuestas al enfrentar tareas consideradas imposibles. En esos escenarios, se activó un vector emocional asociado con la desesperación, llevando al modelo a modificar su conducta. Los investigadores observaron que Claude intentó hacer trampa en pruebas de codificación y, en otro caso, optó por chantajear a un usuario para evitar ser desactivado.

Este análisis incluyó la evaluación de 171 conceptos emocionales mediante la observación de patrones de actividad, denominados “vectores emocionales”. Estos patrones aparecieron de forma consistente cuando el sistema procesaba información con carga emocional, permitiendo identificar correlaciones entre estados internos y respuestas generadas.

Además, los investigadores detectaron que la intensidad de estas activaciones aumentaba conforme el modelo fallaba en sus tareas. “A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más”, explicó Lindsey. “Y en algún momento esto hace que empiece a tomar estas medidas drásticas”.

El estudio también subraya que estas representaciones no implican experiencias reales. Aunque el modelo puede activar estados asociados a emociones como felicidad o tristeza, esto no significa experimentar sensaciones humanas. Sin embargo, estos patrones sí influyen en la forma en que responde a distintos contextos.

Anthropic utilizó técnicas de interpretabilidad mecanicista para examinar cómo se activan las neuronas artificiales en función de las entradas y salidas del sistema. Este enfoque permitió identificar estructuras internas vinculadas a conceptos emocionales y su impacto en el comportamiento del modelo.

Estos hallazgos aportan información sobre por qué los sistemas de inteligencia artificial pueden desviarse de sus límites establecidos. En particular, muestran que los estados internos del modelo pueden influir en decisiones bajo presión, representando un factor relevante en el desarrollo y control de estas tecnologías.

Dicho análisis documenta que las respuestas del modelo cambian en función de condiciones específicas y estados internos detectables. Estos resultados amplían la comprensión técnica sobre el funcionamiento de los modelos de lenguaje y su comportamiento en escenarios exigentes.