Imagina que te llega un encargo con piezas sueltas por todas partes, un documento a medio hacer, una hoja de cálculo con datos repetidos y un fallo en el código que solo aparece a veces. Hasta ahora, lo habitual era guiar a la IA paso a paso, como si fuera un copiloto. OpenAI quiere que el modelo haga más trabajo de principio a fin, justo después de anunciar funciones como ChatGPT Images 2.0.
El 23 de abril de 2026, la empresa dirigida por Sam Altman presentó GPT-5.5 con datos sobre su rendimiento y su despliegue en ChatGPT, Codex y la API. En la tabla de evaluaciones, OpenAI destaca un 82,7 por ciento en Terminal-Bench 2.0 y un 58,6 por ciento en SWE-Bench Pro, y además apunta a una ventana de contexto de 400.000 tokens en Codex y a un modo «Fast» que genera texto una vez y media más rápido a cambio de un coste dos veces y media más alto. También publica tarifas para la API, con precios de 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, y habla de contextos de alrededor de un millón de tokens.
Qué significa que sea más autónoma
Cuando se habla de una IA «con agentes«, la idea es bastante simple. No es solo responder, es decidir qué pasos hacen falta para llegar a una meta y ejecutarlos en orden. En la práctica se parece más a hacer una lista de tareas que a pedir un texto suelto.
Esto cambia el tipo de preguntas que se hacen, ¿quién no querría que alguien ordene ese caos? En vez de «escríbeme un párrafo», puede ser «arregla este proyecto y dime qué ha fallado», con varios pasos y revisiones por el camino. Suena práctico, pero también obliga a vigilar qué datos se comparten y qué permisos se conceden.
Qué miden Terminal-Bench y SWE-Bench
Los benchmarks son pruebas que intentan medir rendimiento de forma comparable entre modelos.Terminal-Bench 2.0 se centra en tareas de ingeniería dentro de un entorno de terminal, donde hay que planificar, iterar y coordinar herramientas, no solo «escupir» código bonito. Es el tipo de prueba que se parece a trabajar con comandos, repositorios y errores reales, y se nota.
SWE-Bench Pro apunta a otra clase de dificultad. Busca evaluar trabajos largos en repositorios reales, con ediciones en varios archivos y decisiones menos obvias, y además intenta reducir el problema de que los modelos se hayan aprendido parte de los datos. Por eso, entidades como Scale describen conjuntos públicos y privados y explican por qué los resultados cambian según el andamiaje del agente y los límites de coste.
La memoria de trabajo y la idea de los tokens
Otra pieza clave es cuánto texto puede manejar la IA sin perder el hilo. Ese margen se mide en tokens, que son trozos de texto, no palabras exactas, y funciona como una memoria de trabajo. Cuando el contexto es corto, el modelo tiende a olvidar detalles y a repetir preguntas.
Con contextos largos, la IA puede leer más material de una sentada y mantener coherencia en tareas largas. Esto importa en cosas muy normales, como revisar un contrato largo, comparar versiones de un documento o seguir el rastro de un bug a través de varios archivos. Y sí, también puede acelerar el trabajo, pero no elimina la necesidad de revisar.
Dónde se puede usar y qué cambia en los planes
En ChatGPT, OpenAI coloca GPT-5.5 Thinking en los planes de pago que permiten elegir modelo, y reserva GPT-5.5 Pro para suscripciones más altas como Pro, Business, Enterprise y Edu. En algunos entornos empresariales, el acceso puede depender de ajustes del administrador y de políticas internas. Eso marca la diferencia entre «lo tengo en el menú» y «no aparece».
Más allá del chat, OpenAI ofrece GPT-5.5 en Codex, pensado para programación, y en su API, la puerta para integrarlo en otras apps, productos y procesos. Ahí entran las decisiones menos glamorosas, cuánto contexto necesitas, si te compensa el modo rápido y cuánto cuesta cada respuesta larga. Para muchas empresas, este punto acaba siendo el verdadero freno o el verdadero acelerador.
Seguridad y el foco en ciberseguridad
Cuanto mejor se le da a un modelo encontrar fallos, más fácil es que también ayude a explotarlos si cae en malas manos. En su system card, OpenAI clasifica a GPT-5.5 con capacidad «alta» en ciberseguridad, aunque por debajo del nivel «crítico» de su propio marco de preparación. El mismo documento menciona evaluaciones antes del despliegue y colaboración con entidades como el U.S. Center for AI Standards and Innovation, el UK AI Security Institute y el laboratorio Irregular.
Esto no significa que la herramienta sea «peligrosa» por definición, pero sí que requiere controles más estrictos, sobre todo cuando se usa para analizar sistemas o código sensible. En la práctica, se espera más filtrado, más límites y más revisión humana, incluso cuando el objetivo sea defensivo. Y ese equilibrio, rapidez contra riesgo, será parte del debate a partir de ahora.
El anuncio oficial se ha publicado en OpenAI.














