
A OpenAI lançou oficialmente o ChatGPT Images 2.0 em 21 de abril de 2026, introduzindo o modelo gpt-image-2 com capacidade de raciocínio visual, geração de até 10 imagens por prompt e resolução de até 2K pixels. A novidade está disponível no ChatGPT, no Codex e via API, e obriga equipes de TI a migrarem urgentemente dos modelos DALL-E 2 e DALL-E 3, que serão descontinuados em 12 de maio de 2026.
A OpenAI não deu margem para acomodação. O lançamento do ChatGPT Images 2.0 em 21 de abril de 2026 veio acompanhado de um prazo apertado, as equipes de desenvolvimento têm até 12 de maio para migrar sistemas que ainda consomem os endpoints do DALL-E 2 e do DALL-E 3. São apenas 20 dias.
O que é o gpt-image-2 e como ele funciona
O modelo base do ChatGPT Images 2.0 se chama gpt-image-2 e opera em dois modos distintos. O modo Instant é o padrão, disponível a todos os usuários, incluindo o plano gratuito. Já o modo Thinking, voltado para raciocínio avançado, é exclusivo para assinantes Plus, Pro e Business.
A diferença entre os dois vai além da nomenclatura. No modo Thinking, o sistema raciocina sobre a tarefa antes de gerar qualquer imagem. Ele também acessa dados da web em tempo real e é capaz de produzir múltiplas imagens a partir de um único prompt. Essa combinação posiciona o modelo em outro patamar em relação aos seus predecessores.
A geração suporta até 10 imagens por prompt, com resolução máxima de 2.000 pixels via API e proporções que variam de 3:1 a 1:3. O leque cobre banners, slides, pôsteres e formatos mobile, casos de uso diretamente relevantes para times de marketing, produto e comunicação corporativa.
Renderização de texto, o problema histórico que foi resolvido
Um dos avanços mais aguardados do ChatGPT Images 2.0 é a renderização precisa de texto dentro das imagens. Geradores anteriores frequentemente distorciam palavras, criavam letras ilegíveis ou simplesmente falhavam com idiomas não latinos. O gpt-image-2 resolve esse problema com suporte a japonês, coreano, chinês, hindi e bengali, entre outros scripts.
Para empresas que operam em mercados globais, essa funcionalidade representa uma mudança concreta na produção de materiais visuais multilíngues. A dependência de pós-produção manual para corrigir texto em imagens geradas por IA tende a diminuir de forma significativa.
Impacto direto nas operações de TI
A descontinuação do DALL-E 2 e do DALL-E 3 em 12 de maio de 2026 é o ponto de maior pressão operacional. Qualquer pipeline de desenvolvimento, fluxo de automação ou integração via API que ainda dependa desses modelos precisará ser atualizado antes do prazo. O risco de interrupção de serviços é real para equipes que não priorizarem a migração agora.
A nova precificação via API também exige atenção. O custo por imagem em 1024×1024 na qualidade alta, modo padrão, é de aproximadamente US$ 0,21. A estrutura tokenizada cobra US$ 5 por milhão de tokens de texto de entrada, US$ 10 por milhão de tokens de texto de saída, US$ 8 por milhão de tokens de imagem de entrada e US$ 30 por milhão de tokens de imagem de saída. Para aplicações em escala, o planejamento financeiro precisa ser revisado.
O lançamento simultâneo do Codex Labs, serviço de treinamento técnico para organizações que adotam o assistente de programação Codex — amplia ainda mais as possibilidades de automação visual em pipelines de DevOps. A integração entre geração de imagens e ambientes de desenvolvimento abre espaço para novos fluxos de trabalho que antes exigiam ferramentas separadas.
O mercado de IA generativa está projetado para atingir US$ 110,8 bilhões até 2030, segundo a Grand View Research. Ferramentas como o ChatGPT Images 2.0 aceleram essa curva. Relatórios do Gartner indicam que ferramentas de conteúdo baseadas em IA devem responder por 20% dos visuais de marketing globais até 2027. A adoção de ferramentas de imagem com IA cresce 35% ao ano, conforme a Statista.
Cibersegurança: o alerta que não pode ser ignorado
O avanço técnico do ChatGPT Images 2.0 tem um lado que preocupa diretamente as lideranças de segurança. A capacidade de gerar imagens hiperrealistas de pessoas, lugares e eventos reais eleva o risco de desinformação, deepfakes e ataques de engenharia social baseados em conteúdo visual sintético.
A OpenAI implementou salvaguardas em múltiplas camadas, verificação de prompts de entrada, filtragem de imagens recebidas, revisão de outputs e testes com prompts adversariais para conteúdo violento e sexual. As medidas existem, mas profissionais de segurança sabem que controles internos de fornecedores não substituem políticas internas de uso.
Organizações que já enfrentam pressão regulatória sobre uso de IA precisam revisar suas políticas antes de liberar o acesso ao modelo para equipes internas. O risco não é hipotético, é operacional. A criação de materiais falsos atribuídos a executivos ou parceiros comerciais, por exemplo, pode ser executada com qualidade visual sem precedentes.
A McKinsey estima que ferramentas de IA generativa têm potencial de reduzir em até 30% os custos de produção de ativos visuais nas empresas. O ganho de eficiência é real, mas precisa ser acompanhado de governança. Velocidade sem controle, neste caso, é um vetor de risco.
O mercado de ferramentas visuais sob pressão
O ChatGPT Images 2.0 também redefine o cenário competitivo. Midjourney, Adobe Firefly e Canva passam a disputar espaço com uma ferramenta que já está embutida em um dos ecossistemas de produtividade mais usados no mundo corporativo. A tendência de consolidação de ferramentas, em vez de múltiplas assinaturas, deve se intensificar.
A avaliação não é apenas sobre a ferramenta em si. É sobre como ela se encaixa na stack existente, quais políticas de uso precisam ser criadas e como a organização vai monitorar o conteúdo gerado. A decisão de adotar ou restringir o acesso ao gpt-image-2 não é técnica, é estratégica.
O prazo de 12 de maio está próximo. As equipes que ainda operam com DALL-E não têm margem para esperar.
Siga o Itshow no LinkedIn e assine a nossa News para ficar por dentro de todas as notícias do setor de TI e Cibersegurança!