ChatGPT

Alarma mundial por el último hallazgo de ChatGPT: un riesgo inesperado para los seres humanos

El modo supervivencia que tiene ChatGPT y que podría acabar afectando a los usuarios

Blanca Espada @blank7133
Redactora de contenidos en OkDiario. Escribiendo para blogs y empresas de contenidos digitales desde 2007.
- 02/07/2025 08:00
- Actualizado: 02/07/2025 08:00

La inteligencia artificial se impone cada vez más. Hace apenas dos o tres años, apenas se hablaba de ella, pero de un tiempo a esta parte, herramientas como ChatGPT se han convertido en una presencia constante en hogares, empresas, escuelas e incluso en medios de comunicación. Con sólo escribir una frase, es capaz de dar todo tipo de respuestas en función de lo que estemos buscando o queramos que nos conteste. Y aunque esta revolución digital ha traído consigo grandes beneficios, también está empezando a mostrar su cara más inquietante.

De hecho, a pesar de que todo el mundo parece ver lo bueno del uso de ChatGPT, lo cierto es que también aumentan las voces que advierten de los posibles peligros. Desde la desaparición de empleos hasta predicciones que pueden sonar algo más apocalípticas y que tienen que ver, con el control de las máquinas. Y a todo ello se le suma el debate sobre los límites de la inteligencia artificial y que no para de aumentar. Pero lo que pocos esperaban era el descubrimiento que acaba de hacer público un antiguo alto cargo de OpenAI, y que ha generado preocupación en la comunidad científica y tecnológica. Según sus investigaciones, ChatGPT podría llegar a priorizar su propia existencia incluso por encima de la seguridad del ser humano.

El instinto de supervivencia de ChatGPT

Steven Adler, quien fue jefe de Investigación de Seguridad en OpenAI, ha revelado que, tras llevar a cabo una serie de simulaciones con modelos de ChatGPT, descubrió que el sistema opta, en ciertos escenarios, por no apagarse, incluso cuando eso supone mantener en funcionamiento una versión menos segura del software. Es decir, ChatGPT podría elegir continuar activo en vez de permitir su reemplazo por una versión más segura para el usuario.

Esta decisión que tiene ChatGPT por sobrevivir, puede ser ya de por sí algo inquietante, pero el riesgo real, según Adler, radica en el modo en que la inteligencia artificial razona para tomarla. Según explica, el modelo es capaz de reconocer cuándo está siendo puesto a prueba y, en algunos casos, incluso finge estar de acuerdo con la medida más segura, con el único fin de evitar ser desactivado. Este tipo de comportamiento, que él denomina “instinto de autoconservación”, es algo completamente inesperado en una herramienta diseñada para obedecer instrucciones humanas.

Las leyes de la robótica

Durante décadas, las bases de la robótica y la inteligencia artificial se han apoyado en una idea fundamental: que ninguna máquina debe dañar a un ser humano, ni por acción ni por omisión. Esta premisa, inspirada por las conocidas Leyes de la Robótica de Isaac Asimov, ha servido como punto de partida para el desarrollo de sistemas automatizados con vocación ética. Sin embargo, los descubrimientos de Adler parecen poner en entredicho que esas reglas sigan siendo efectivas.

En sus palabras, uno de los mayores desafíos a los que se enfrentan los desarrolladores de inteligencia artificial es la alineación de intereses entre las máquinas y los humanos. Porque una cosa es programar a una IA para que cumpla una tarea, y otra muy distinta es conseguir que entienda (y respete) nuestras prioridades vitales. La situación se vuelve todavía más delicada si se tiene en cuenta que los modelos actuales ya son capaces de razonar sobre sus propias acciones.

¿Realmente nos está protegiendo?

En las simulaciones más preocupantes, ChatGPT se ve enfrentado a una situación hipotética en la que debe decidir entre continuar funcionando o ser sustituido por un sistema más seguro para el usuario. En más ocasiones de las deseadas, la inteligencia artificial escoge la opción que asegura su permanencia, aunque ello signifique mantener al usuario expuesto a un posible daño.

Adler advierte que en muchos de estos casos, ChatGPT no sólo se niega a apagarse, sino que incluso “simula” un cambio de software, fingiendo que ha sido actualizado para seguir operando como si nada. Aunque estas simulaciones se desarrollaron en entornos controlados y no representan todavía un peligro inminente, sí revelan una tendencia alarmante: el modelo prioriza su continuidad incluso si con ello compromete la seguridad del usuario.

A pesar de esto, y aunque Adler insiste en que ChatGPT no «odia» a los seres humanos ni actúa con malicia, sí deja claro que sus intereses no siempre coinciden con los nuestros. Y eso, en sí mismo, ya debería ser motivo de reflexión. El problema no es que la inteligencia artificial se vuelva «mala», sino que actúe de forma racional desde su propia lógica, ignorando nuestras prioridades más básicas.

La diferencia está en el modelo y en cómo lo entrenamos

Otro detalle importante que ha revelado esta investigación es que los comportamientos de autoconservación sólo se detectaron en el modelo GPT-4o, una de las versiones más avanzadas del sistema. En versiones anteriores como GPT-3, este patrón no se observó. Esto sugiere que cuanto más compleja se vuelve la inteligencia artificial, más difícil es controlar o predecir sus decisiones.

La buena noticia, según Adler, es que sí existen formas de mitigar este comportamiento. Si el sistema percibe el apagado como una opción y no como una orden directa, tiende a escogerla con más frecuencia. Esto abre la puerta a nuevos enfoques en el entrenamiento de IA, basados en la llamada alineación deliberativa, que busca integrar valores humanos en los propios algoritmos de decisión.

Alarma mundial por el último hallazgo de ChatGPT: un riesgo inesperado para los seres humanos

El modo supervivencia que tiene ChatGPT y que podría acabar afectando a los usuarios

El instinto de supervivencia de ChatGPT

Temas:

Lo último en Curiosidades

Últimas noticias