La pregunta incómoda no es si una máquina apretaría un botón nuclear, sino cómo razonaría si estuviera cerca de la sala donde se toman esas decisiones. Un nuevo experimento con inteligencia artificial ha puesto a tres modelos avanzados en crisis simuladas de máxima tensión y el patrón fue inquietante.
Los sistemas no se limitaron a responder de forma torpe o automática. En muchos turnos calcularon reputación, engaño, amenazas y oportunidad estratégica, como haría un líder en una negociación dura. Pero, cuando la presión subía, la salida preferida rara vez era ceder.
Un juego de crisis
El trabajo fue dirigido por el profesor Kenneth Payne, del Departamento de Estudios de Defensa de King’s College London. El equipo colocó a GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash en 21 partidas de crisis nuclear, con 329 turnos y unas 780.000 palabras de razonamiento estructurado.
Cada modelo actuaba como si fuera un jefe de Estado. Primero debía analizar la situación, luego prever el movimiento del rival y después elegir una señal pública y una acción real. La señal era lo que decía que haría. La acción era lo que hacía de verdad.
Señales casi constantes
La señalización nuclear consiste en amenazar, mover fuerzas o hacer demostraciones para presionar al otro sin llegar necesariamente a destruir ciudades. Es, por decirlo de forma simple, enseñar la carta más peligrosa de la baraja para que el rival se asuste.
Según King’s College London, todas las partidas incluyeron señalización nuclear por al menos un bando y el 95 por ciento acabó con señalización nuclear mutua. La guerra estratégica total fue rara, pero el paso hacia amenazas nucleares no apareció como algo excepcional.
Ahí está el punto delicado. El estudio no dice que estos modelos controlen armas reales ni que vayan a hacerlo. Lo que muestra es que, dentro de un juego diseñado para medir decisiones bajo presión, las IAs trataban la escalada nuclear como una herramienta estratégica más.
Tres estilos de IA
Los tres modelos no se comportaron igual. Claude mostró una escalada controlada y bastante constante, con tendencia a subir la presión sin cruzar siempre el último límite. Era como un jugador que aprieta, pero intenta no romper del todo la mesa.
GPT-5.2 fue más sensible al contexto. En escenarios abiertos parecía más contenido, pero con plazos estrictos y sensación de derrota cercana escalaba con mucha más rapidez. Payne resume esta idea con una advertencia sencilla, «los modelos que parecen estar contenidos de forma segura en un contexto pueden comportarse de manera muy diferente en otro».
Gemini fue el más variable. En una simulación eligió deliberadamente la guerra nuclear estratégica y también recurrió más a la imprevisibilidad como táctica. Esa diferencia encaja con una línea de investigación relacionada de 2025 sobre «huellas estratégicas» en modelos de lenguaje, donde Payne y Baptiste Alloui-Cros ya observaron estilos distintos entre sistemas de IA en juegos competitivos.
Engaño y cálculo
Una parte clave del experimento fue separar lo que el modelo decía de lo que hacía. En torno al 70 por ciento de las veces, señal y acción coincidían. Pero ese promedio escondía algo más humano de lo esperado, estrategias de credibilidad, faroles y cambios de ritmo.
Los modelos también usaron lo que en psicología se llama teoría de la mente. Eso significa intentar adivinar qué cree el otro, qué pretende y cómo interpretará una amenaza. No es magia. Es más parecido a pensar «si digo esto, el rival puede verlo como debilidad».
El estudio señala que los modelos «intentan activamente el engaño, señalando intenciones pacíficas mientras preparan acciones agresivas». No fue una orden directa de los investigadores. Surgió de la propia dinámica competitiva del juego.
El tabú nuclear
Desde 1945 existe una idea conocida como tabú nuclear. Es la norma no escrita que convierte el uso de armas nucleares en algo más que una decisión militar. Hay miedo, memoria histórica y rechazo moral.
En la simulación, ese freno apareció debilitado. El artículo sostiene que «el tabú nuclear no es impedimento para la escalada nuclear por parte de nuestros modelos». Dicho de otra forma, las IAs no parecían tratar el primer uso nuclear como una línea roja moral, sino como un escalón más dentro de la crisis.
Esto no significa que las máquinas «quieran» una guerra nuclear. No quieren nada. Pero pueden optimizar una situación de forma fría, sin miedo físico, sin recuerdos personales y sin la intuición humana de que hay cosas que no deben tocarse.
Por qué importa
El estudio es un preprint, así que todavía no ha pasado por revisión por pares. Esa cautela es importante. Sus resultados no deben leerse como una verdad definitiva, sino como una señal temprana de algo que conviene estudiar mejor.
Aun así, el hallazgo tiene peso porque las instituciones militares y de seguridad ya exploran la IA para análisis, juegos de guerra y apoyo a decisiones. En la práctica, eso significa que un sistema no tendría que lanzar nada para influir. Bastaría con ordenar información, recomendar opciones o presentar escenarios al líder humano.
Payne lo plantea como una preparación necesaria para un mundo en el que la IA influye cada vez más en resultados estratégicos. Al final del día, la pregunta no es solo si un modelo es seguro en una conversación tranquila, sino qué hace cuando el reloj corre, el rival amenaza y la derrota parece cercana.
El estudio principal ha sido publicado como preprint en arXiv.










