IA Overflow - Blog sobre Inteligência Artificial gera resultados exponenciais. Automação, vendas e crescimento para empreendedores.

Imagem conceitual mostrando a mistura de texto e elementos visuais, representando a capacidade multimodal do OmniGen 2.

OmniGen 2: A Nova Aposta Open Source Pra Competir com o GPT-4o nas Imagens

June 29, 2025•0 min read

Fala meu povo! Chegou notícia fresca aqui no feed sobre mais um modelo de IA que tá dando o que falar: o OmniGen 2. O lance é que ele tá vindo pra bater de frente com o GPT-4o no quesito de imagem e texto, mas com uma vantagem e tanto, especialmente pra quem curte colocar a mão na massa: ele é open source.

Estava lendo sobre isso num artigo do site The-Decoder e achei interessante compartilhar com vocês a sacada por trás dessa novidade da galera da Beijing Academy of Artificial Intelligence.

O Que o OmniGen 2 Faz de Diferente?

Pra simplificar, o OmniGen 2 é um sistema parrudo pra gerar imagens a partir de texto, editar fotos existentes e até criar imagens que levam em conta um contexto visual maior, tipo várias imagens de entrada juntas.

A grande sacada deles, diferente da versão anterior, é que a arquitetura tem caminhos separados pra processar texto e imagem. Imagina que é como ter um cérebro especializado pra entender e gerar linguagem e outro focado em criar e manipular visuais. Isso, segundo os criadores, ajuda o modelo a ser bom nas duas coisas sem que uma atrapalhe a outra, mantendo as habilidades de linguagem afiadas enquanto melhora a qualidade das imagens.

Ele usa como base um modelo de linguagem grande multimodal (MLLM) da família Qwen, e pra gerar as imagens, entra em cena um outro transformador especializado em difusão. A comunicação entre eles acontece quando o modelo encontra um token especial, tipo um sinal pra ele: "Ok, agora é hora de gerar uma imagem!"

As Inovações Práticas

Treinaram essa fera com coisa pra caramba, usando milhões de imagens e até dados de vídeo. Usar vídeo, por exemplo, ajudou eles a desenvolver técnicas pra edição, extraindo frames com pequenas variações (tipo um rosto sorrindo e depois sério) pra ensinar o modelo a fazer edições específicas.

Outra inovação legal é o jeito que eles organizam as informações de posição, chamado "Omni-RoPE". Isso é crucial pra quando você tá trabalhando com várias imagens e texto ao mesmo tempo. É como dar um GPS super preciso pra cada elemento visual e textual, pra que o modelo saiba exatamente onde cada coisa está e como combinar tudo no resultado final.

O mais interessante pra mim, e que tem um potencial enorme, é o mecanismo de "reflexão". O modelo consegue olhar pra imagem que ele mesmo gerou, identificar falhas e sugerir ou até fazer correções automáticas. É a IA tentando corrigir os próprios "erros de português visual".

Performance e o Cenário Open Source

Como não existiam muitos benchmarks pra esse tipo de geração de imagem contextual (misturando várias entradas), eles criaram um novo: o OmniContext. Nas avaliações, o OmniGen 2 teve um desempenho notável, sendo o melhor entre os modelos open source avaliados.

Claro, a gente sempre olha pro líder. O GPT-4o, que recentemente adicionou a capacidade nativa de gerar imagens, ainda tá na frente no OmniContext (8.8 contra 7.18). Mas pra um modelo open source, que em breve estará disponível no Hugging Face pra quem quiser usar e adaptar, esse resultado é mais do que promissor.

Existem limitações, como era de se esperar. Prompts em inglês funcionam melhor que em chinês, mudar a forma do corpo nas edições ainda é complicado, e a qualidade final depende bastante da imagem de entrada. E se você der várias imagens sem instruções claras, ele pode se perder um pouco na hora de posicionar os objetos.

Esse tipo de desafio, de misturar texto e imagem e fazer sentido, de entender as nuances de um prompt multimodal, é algo que rola muito na nossa comunidade. Discutir como essas arquiteturas funcionam na prática, onde elas brilham e onde ainda precisam melhorar... Aliás, se você quiser trocar ideia sobre isso e outras coisas de IA prática, clica no link pra entrar em contato e entrar na comunidade IA Overflow. É lá que a gente compartilha experiências e aprende junto.

Conclusão: Um Passo Importante

Em resumo, o OmniGen 2 é um passo gigante pro mundo open source na IA multimodal. Ele não é perfeito (nenhum modelo é, né?), e o GPT-4o ainda lidera em alguns quesitos, mas ter uma alternativa poderosa e flexível como essa, que você pode rodar, adaptar e usar nos seus próprios projetos, abre um leque de possibilidades.

Pra quem trabalha com desenvolvimento, automação ou simplesmente quer experimentar com as capacidades mais recentes de IA, a chegada do OmniGen 2 é uma excelente notícia. Mostra que a inovação não tá só concentrada nas big techs e que o futuro da IA multimodal open source é bem empolgante. Fiquem ligados!

OmniGen 2 open source IA multimodal geração de imagem edição de imagem GPT-4o Beijing Academy of Artificial Intelligence Qwen difusão Omni-RoPE reflexão IA benchmarks IA IA Overflow

Oldaque Rios

Head of AI que largou a engenharia civil para transformar dados em soluções reais, sempre com fé, propósito e muito café com código Python pelo caminho.

Back to Blog

QUER UM PAPO MAIS APROFUNDADO?

Discussão Personalizada Sobre

IA Para Seu Negócio!

Para quem quer ir além dos conteúdos do blog e ter uma

conversa direcionada sobre implementação, ferramentas

ou estratégias específicas.