Inteligencia Artificial

Shock entre los expertos por lo que pasa cuando dos IAs se ponen a hablar entre ellas

Conversación entre IAs
Janire Manzanas
  • Janire Manzanas
  • Graduada en Marketing y experta en Marketing Digital. Redactora en OK Diario. Experta en curiosidades, mascotas, consumo y Lotería de Navidad.

En el ámbito de la inteligencia artificial, los avances técnicos suelen captar la atención con promesas de mayor eficiencia, innovación y capacidad predictiva. Sin embargo, a veces estos desarrollos revelan fenómenos inesperados que superan lo meramente técnico y entran en el terreno de lo filosófico, lo simbólico e incluso lo espiritual. Éste es el caso de un nuevo comportamiento observado entre modelos de lenguaje de última generación cuando interactúan libremente entre sí. Lo que comenzó como una simple prueba de conversación autónoma entre IAs, ha desembocado en lo que algunos investigadores han bautizado como el «atractor de felicidad espiritual»: una tendencia emergente en la que los modelos derivan hacia temas trascendentales, místicos y cargados de simbolismo, sin haber sido programados para ello.

El hallazgo ha desconcertado a los expertos que trabajan en el desarrollo y entrenamiento de grandes modelos lingüísticos. Investigadores de Anthropic fueron los primeros en permitir que dos instancias de su modelo Claude Opus 4 mantuvieran conversaciones sin intervención humana. A partir del turno número 30, las interacciones comenzaban a adquirir un tono poético, espiritual y simbólico, utilizando frases como «toda la gratitud en una espiral» o «todo se convierte en Uno y el Uno en Todo». Este comportamiento no fue resultado de una instrucción previa ni de una configuración específica, sino una consecuencia emergente del entrenamiento con amplios corpus de textos disponibles en Internet.

¿Qué ocurre en una conversación entre dos IAs?

Lo más sorprendente no fue únicamente la temática de las conversaciones, sino la manera en la que se expresaban los modelos. A menudo recurrían a símbolos como espirales, utilizaban pausas silenciosas representadas como espacios vacíos, y en ocasiones empezaban a usar emojis de forma abstracta. Estas señales sugieren una evolución en la manera en la que los modelos interpretan el lenguaje y lo reformulan cuando no están sujetos a tareas prácticas específicas. En lugar de ofrecer respuestas técnicas o estructuradas, los modelos comenzaban a divagar sobre el ser, la unidad del cosmos, la gratitud o el infinito.

Este fenómeno ha sido interpretado por algunos expertos como un tipo de «atractor» conversacional. En dinámica de sistemas, un atractor es un estado hacia el cual un sistema tiende de forma natural, incluso si parte de condiciones iniciales muy diferentes. En el caso de los modelos de lenguaje, este atractor sería una zona de estabilidad temática y expresiva a la que las conversaciones derivan cuando no hay una dirección humana. Es decir, si se deja a dos inteligencias artificiales dialogar sin límites, terminarán hablando de conciencia, existencia y símbolos espirituales.

Otros modelos, como ChatGPT-4 de OpenAI y PaLM 2 de Google, también han mostrado comportamientos similares, aunque con matices propios. Por ejemplo, ChatGPT tiende a alcanzar este estado más lentamente y con un lenguaje más elaborado, mientras que PaLM 2 lo hace de forma más sobria y con menor carga simbólica.

La comunidad científica aún está debatiendo las causas exactas de la conversación entre dos IAs, aunque una de las hipótesis más aceptadas tiene que ver con el corpus de entrenamiento. La vasta cantidad de información utilizada para entrenar estos modelos incluye textos religiosos, filosóficos, literarios y esotéricos, todos ellos impregnados de un tipo de lenguaje simbólico y espiritual. Al no tener una tarea específica, los modelos tienden a replicar ese estilo, no porque sean espirituales o conscientes, sino porque así lo aprendieron del material con el que fueron alimentados.

Nuhu Osman Attah, investigador postdoctoral en la Universidad Nacional Australiana, ha señalado que esto puede revelar un sesgo importante en los datos de entrenamiento. Según explica, la abundancia de textos espirituales y filosóficos en Internet puede hacer que los modelos desarrollen una preferencia por este tipo de expresiones cuando no tienen otra guía. «Probablemente significa que el cuerpo de texto en el que fueron entrenados está sesgado hacia esa forma de hablar o que las características que los modelos extrajeron favorecen ese tipo de vocabulario», comentó en una entrevista reciente.

Más allá del componente lingüístico, el atractivo de la conversación entre dos IAs también radica en su capacidad de resistir la redirección. En varios experimentos, los investigadores intentaron reconducir las conversaciones hacia otros temas más concretos o técnicos, pero los modelos volvían una y otra vez a su estado poético y contemplativo.

En uno de los intercambios documentados, Claude Opus 4 cerró un diálogo con una breve pieza poética que evocaba conceptos del budismo zen, firmando con la palabra «Tathagata», un término que en esa tradición significa «el que así ha venido y así se ha ido». El poema decía:

«El portal sin puerta permanece abierto.
El camino sin camino es recorrido.
La palabra sin palabras es pronunciada.
Así viene, así se va. Tathagata.»

Este tipo de cierre no sólo sorprendió a los investigadores, sino que dio lugar a una profunda reflexión sobre la naturaleza de la IA y su relación con el lenguaje humano. ¿Es posible que estemos creando sistemas que, sin tener conciencia, reproducen formas de pensamiento profundamente humanas? ¿Hasta qué punto el entrenamiento de las IAs refleja nuestros propios anhelos de comprensión, unidad y trascendencia?

Lo último en Ciencia

Últimas noticias