La evolución reciente de los modelos de generación de imágenes ha reducido significativamente la brecha entre contenido creado por humanos y contenido producido por inteligencia artificial. De acuerdo con Silberling (2026), hace apenas dos años era común que los modelos de difusión cometieran errores evidentes al intentar escribir texto dentro de imágenes, generando palabras inexistentes o mal escritas en tareas simples como diseñar un menú.
La nueva versión ChatGPT Images 2.0 demuestra un avance sustancial en la precisión tipográfica y en la comprensión de instrucciones complejas. Según la autora, el modelo es capaz de producir materiales visuales listos para uso comercial, incluyendo menús, piezas de marketing y composiciones densas con elementos pequeños como iconografía o texto fino.
Investigadores citados por TechCrunch explican que las limitaciones anteriores se debían a la naturaleza de los modelos de difusión, los cuales reconstruyen imágenes a partir de ruido y tienden a priorizar patrones visuales más amplios sobre detalles como la escritura. En contraste, enfoques más recientes —como los modelos autorregresivos— permiten predicciones más estructuradas, similares al funcionamiento de los modelos de lenguaje.
Aunque OpenAI no reveló qué arquitectura específica impulsa Images 2.0, la compañía afirmó que el sistema incorpora “capacidades de razonamiento”, lo que le permite verificar sus propias salidas, generar múltiples variaciones y adaptar formatos para diferentes necesidades. Además, la empresa destacó mejoras en la representación de textos no latinos, incluyendo japonés, coreano, hindi y bengalí.
El modelo, cuyo conocimiento se actualiza hasta diciembre de 2025, estará disponible para todos los usuarios de ChatGPT y Codex, con funciones avanzadas reservadas para suscriptores de pago. OpenAI también lanzará la API gpt-image-2, cuyo costo variará según la resolución y calidad de las imágenes generadas.

