Durante años, los generadores de imágenes por inteligencia artificial han podido crear escenas espectaculares, pero fallaban en algo muy básico para el trabajo real. Las letras salían torcidas, las frases se inventaban palabras y los carteles parecían bonitos hasta que uno intentaba leerlos.
OpenAI quiere cambiar esa impresión con ChatGPT Images 2.0, su nuevo sistema de generación de imágenes dentro de ChatGPT. La compañía dirigida por Sam Altman lo presenta como un salto hacia imágenes más útiles, no solo más llamativas, con mejoras en precisión, texto, composición y edición visual.
La pieza que fallaba
El gran problema no era pedir «un gato astronauta» y recibir algo vistoso. El atasco llegaba al pedir una pieza que tuviera que funcionar en la vida diaria, como un cartel para una tienda, una gráfica para clase o una viñeta con el mismo personaje en varias escenas.
Un generador de imágenes convierte una instrucción escrita, el llamado «prompt», en una imagen. Parece simple, pero si el encargo incluye texto, posiciones concretas y varios elementos, el modelo tiene que entender la escena casi como si organizara una maqueta. Ahí es donde OpenAI dice haber reforzado ChatGPT Images 2.0.
La empresa resume la idea con una frase bastante directa, «las imágenes son un lenguaje, no decoración». En la práctica, eso significa que una imagen debería explicar, ordenar y comunicar algo, igual que una buena frase hace más que sonar bonita.
Pensar antes de dibujar
Una de las novedades más relevantes es el modo de imágenes con «thinking». OpenAI explica que, cuando se le da más tiempo, el sistema puede planificar y pulir el resultado antes de generar la imagen, algo parecido a hacer un boceto mental antes de ponerse a dibujar.
Ese razonamiento no significa que el modelo «piense» como una persona. Significa que puede dividir mejor la tarea, revisar el contexto y apoyarse en herramientas como la búsqueda web cuando el flujo lo permite, según la tarjeta de sistema publicada por OpenAI.
Esto importa porque muchas imágenes útiles dependen de detalles pequeños. Un storyboard de seis viñetas, por ejemplo, no solo necesita escenas bonitas, también continuidad del protagonista, cambios de plano y un orden que se entienda sin tener que adivinar.
Texto más legible
OpenAI insiste en que ChatGPT Images 2.0 mejora la representación de texto dentro de la imagen. Ese punto es clave, porque las letras han sido durante años una especie de talón de Aquiles para estos modelos, sobre todo en carteles, infografías, pantallas y cómics.
La mejora también afecta a idiomas y escrituras no latinas. La página oficial muestra ejemplos con japonés, coreano, chino, bengalí y otros sistemas de escritura, algo importante para campañas internacionales, materiales educativos y piezas visuales que no se limitan al inglés.
Dicho de forma sencilla, el sistema intenta que el texto no sea un adorno borroso. Si un usuario pide una comparativa visual entre Valencia, Málaga y Bilbao con clima, coste de vida y calidad de vida, el reto está en que esos bloques se lean y estén bien colocados.
Formatos más amplios
La nueva generación no se queda en imágenes cuadradas o composiciones básicas. La documentación para desarrolladores indica que gpt-image-2 admite tamaños flexibles, con formatos muy horizontales o muy verticales, y una resolución de referencia que llega a 2K para muchos usos prácticos.
Eso abre la puerta a banners, publicaciones para redes sociales, presentaciones, pósteres y piezas más alargadas. No es lo mismo crear una imagen para un móvil que para una diapositiva o una cabecera web, y ahí el formato deja de ser un detalle menor.
La guía técnica de OpenAI, firmada por Mandeep Singh y Emre Okcular, sitúa estos modelos en flujos de trabajo profesionales y creativos controlables. En otras palabras, la compañía no solo habla de jugar con imágenes, sino de producir materiales que puedan pasar por revisión y usarse con menos retoques.
El tablero competitivo
Este lanzamiento llega en un mercado muy apretado. Midjourney se ha ganado una posición fuerte en imágenes de alto impacto artístico, mientras otros modelos han empujado en edición conversacional o fotorrealismo.
La apuesta de OpenAI parece algo distinta. En vez de vender solo una herramienta aislada para crear imágenes, intenta integrar la generación visual dentro de ChatGPT, junto a conversación, razonamiento, búsqueda, edición y desarrollo de software.
Ese enfoque puede ser útil si realmente reduce el ensayo y error. Al final del día, un creador no siempre quiere «la imagen más impresionante», sino una imagen que encaje con el encargo, que respete el texto y que no obligue a repetir veinte veces la misma petición.
Ya llega a ChatGPT
OpenAI afirma que ChatGPT Images 2.0 está disponible en todos los planes de ChatGPT. El modo con «thinking», sin embargo, queda asociado a planes de pago como Plus, Pro y Business, según el centro de ayuda de la compañía.
La llegada también alcanza a desarrolladores. OpenAI ha anunciado gpt-image-2 para la API y Codex, lo que permite crear recursos visuales dentro de aplicaciones, flujos de diseño o entornos de programación.
Ahora queda la prueba más incómoda, la del uso real. Habrá que ver si los carteles salen legibles de forma consistente, si las viñetas mantienen personajes y si las imágenes con mucha información aguantan más allá de la demo oficial.
El comunicado oficial se ha publicado en OpenAI.














