IA Overflow - Blog sobre Inteligência Artificial gera resultados exponenciais. Automação, vendas e crescimento para empreendedores.

Ilustração abstrata de uma mão robótica avaliando um código de programação ou design visual.

IA com Bom Gosto? Tencent Tenta Medir a Criatividade das Máquinas

July 09, 2025•0 min read

Fala meu povo, recebi um artigo interessante na minha linha do tempo, lá do site Artificial Intelligence News, sobre a Tencent e um novo benchmark que eles criaram. O bicho se chama ArtifactsBench, e a ideia por trás dele é simplesmente genial, porque toca num ponto nevrálgico:

Como diabos a gente mede se uma IA não só faz o que pedimos, mas faz com algum critério, com bom gosto? Sabe, quando você pede pra IA criar uma página web, um gráfico, e o código até funciona, mas a coisa fica feia, desajeitada, com botões fora do lugar, cores berrantes? Pois é, a funcionalidade a gente testa fácil. Mas e a experiência do usuário, a tal da User Experience (UX), e a estética?

O Dilema do Código Funcional (Mas Feio)

Por muito tempo, os benchmarks para modelos de IA que geram código focavam no óbvio: o código roda? Ele entrega o resultado esperado? É o básico do básico. Mas o mundo real não vive só de funcionalidade crua. Ninguém quer usar um aplicativo que funciona perfeitamente, mas parece ter sido desenhado por um pato cego.

O artigo comentou que esses testes tradicionais eram "cegos à fidelidade visual e à integridade interativa que definem as experiências de usuário modernas". E é exatamente aí que o ArtifactsBench entra, tentando ser uma espécie de crítico de arte automatizado para o código que a IA cuspiu.

Como Funciona Esse 'Crítico de Arte' Automatizado?

A dinâmica é bacana: eles dão uma tarefa criativa para a IA, algo como criar uma visualização de dados ou um mini-game interativo, de um catálogo com mais de 1800 desafios. A IA gera o código. Aí, o ArtifactsBench entra em cena.

Ele roda o código num ambiente seguro, tira screenshots em vários momentos para ver como a aplicação se comporta, se as animações funcionam, se um clique de botão muda o estado da tela, etc. E então, toda essa evidência – a tarefa original, o código gerado e as capturas de tela – é entregue para um MLLM (um LLM Multimodal) atuar como juiz.

Esse "juiz" avalia o resultado com base numa lista de dez métricas, incluindo funcionalidade, UX e até qualidade estética. O interessante é que, quando compararam as avaliações do ArtifactsBench com plataformas onde humanos votam nas melhores criações de IA, a consistência foi altíssima: 94.4%! Muito acima dos benchmarks antigos que ficavam na casa dos 69%.

Isso é algo que rola muito na nossa comunidade: como ir além da funcionalidade e testar a qualidade subjetiva das soluções de IA. Avaliar "gosto" ou UX numa máquina é complexo e exige uma abordagem criativa na avaliação, como essa da Tencent. Aliás, se você quiser trocar ideia sobre como testar e validar suas ideias e produtos com IA, clica no link pra entrar em contato e entre na comunidade IA Overflow.

Generalistas Batem Especialistas: A Surpresa

A Tencent colocou mais de 30 modelos de ponta para rodar nesse benchmark, e o resultado foi meio contraintuitivo. Enquanto modelos top como Gemini-2.5-Pro e Claude 4.0-Sonnet lideraram, a descoberta mais legal foi que modelos generalistas, como o Qwen-2.5-Instruct, se saíram melhor em tarefas criativas do que modelos especializados em código (Qwen-2.5-coder) ou visão (Qwen-2.5-VL).

Por quê? Porque criar algo com boa aparência e boa UX não é só sobre saber codificar ou "enxergar". É sobre ter um mix de habilidades: raciocínio robusto, entender bem as instruções (as nuances!) e ter um senso implícito de estética. Coisas que os modelos generalistas, por natureza, estão desenvolvendo mais holisticamente.

Essa visão de que precisamos de uma combinação de habilidades, e não apenas especialização pura, bate muito com o que vejo na prática, especialmente no desenvolvimento de soluções de Vertical AI. Não adianta a ferramenta ser super especialista se ela não consegue ter um bom entendimento do contexto geral e um mínimo de "bom gosto" para entregar algo que seja realmente utilizável e eficiente no dia a dia do negócio.

O Futuro da IA Criativa

Um benchmark como esse é crucial porque ele eleva a barra. Agora, a gente não vai mais aceitar só código que roda. A gente vai começar a exigir código que roda bem, que parece bem feito e que oferece uma boa experiência. Isso empurra os desenvolvedores de IA a criarem modelos que não são só "inteligentes" no sentido funcional, mas que também têm uma pitada de "sensibilidade" ou "gosto" - mesmo que esse gosto seja aprendido via dados e avaliações complexas.

É um passo importante para que a IA deixe de ser apenas uma ferramenta para criar rascunhos e se torne capaz de gerar produtos digitais mais polidos e prontos para usar. O caminho é longo, mas benchmarks assim mostram que estamos caminhando para que a IA não só construa a casa, mas também se preocupe se a pintura tá bonita e se a porta abre do lado certo.

No mais, sigo otimista, mas com os pés no chão. Em Deus nós confiamos, o resto me tragam dados. E agora, dados de "gosto" e "UX" pra IA!

IA Inteligência Artificial Tencent ArtifactsBench Benchmark Desenvolvimento Código UX Experiência do Usuário Modelos de IA Avaliação de IA GenAI IA Generativa Modelos Generalistas

Oldaque Rios

Head of AI que largou a engenharia civil para transformar dados em soluções reais, sempre com fé, propósito e muito café com código Python pelo caminho.

Back to Blog

QUER UM PAPO MAIS APROFUNDADO?

Discussão Personalizada Sobre

IA Para Seu Negócio!

Para quem quer ir além dos conteúdos do blog e ter uma

conversa direcionada sobre implementação, ferramentas

ou estratégias específicas.