
IA com Bom Gosto? Tencent Tenta Medir a Criatividade das Máquinas
Fala meu povo, recebi um artigo interessante na minha linha do tempo, lá do site Artificial Intelligence News, sobre a Tencent e um novo benchmark que eles criaram. O bicho se chama ArtifactsBench, e a ideia por trás dele é simplesmente genial, porque toca num ponto nevrálgico:
Como diabos a gente mede se uma IA não só faz o que pedimos, mas faz com algum critério, com bom gosto? Sabe, quando você pede pra IA criar uma página web, um gráfico, e o código até funciona, mas a coisa fica feia, desajeitada, com botões fora do lugar, cores berrantes? Pois é, a funcionalidade a gente testa fácil. Mas e a experiência do usuário, a tal da User Experience (UX), e a estética?
O Dilema do Código Funcional (Mas Feio)
Por muito tempo, os benchmarks para modelos de IA que geram código focavam no óbvio: o código roda? Ele entrega o resultado esperado? É o básico do básico. Mas o mundo real não vive só de funcionalidade crua. Ninguém quer usar um aplicativo que funciona perfeitamente, mas parece ter sido desenhado por um pato cego.
O artigo comentou que esses testes tradicionais eram "cegos à fidelidade visual e à integridade interativa que definem as experiências de usuário modernas". E é exatamente aí que o ArtifactsBench entra, tentando ser uma espécie de crítico de arte automatizado para o código que a IA cuspiu.
Como Funciona Esse 'Crítico de Arte' Automatizado?
A dinâmica é bacana: eles dão uma tarefa criativa para a IA, algo como criar uma visualização de dados ou um mini-game interativo, de um catálogo com mais de 1800 desafios. A IA gera o código. Aí, o ArtifactsBench entra em cena.
Ele roda o código num ambiente seguro, tira screenshots em vários momentos para ver como a aplicação se comporta, se as animações funcionam, se um clique de botão muda o estado da tela, etc. E então, toda essa evidência – a tarefa original, o código gerado e as capturas de tela – é entregue para um MLLM (um LLM Multimodal) atuar como juiz.
Esse "juiz" avalia o resultado com base numa lista de dez métricas, incluindo funcionalidade, UX e até qualidade estética. O interessante é que, quando compararam as avaliações do ArtifactsBench com plataformas onde humanos votam nas melhores criações de IA, a consistência foi altíssima: 94.4%! Muito acima dos benchmarks antigos que ficavam na casa dos 69%.
Isso é algo que rola muito na nossa comunidade: como ir além da funcionalidade e testar a qualidade subjetiva das soluções de IA. Avaliar "gosto" ou UX numa máquina é complexo e exige uma abordagem criativa na avaliação, como essa da Tencent. Aliás, se você quiser trocar ideia sobre como testar e validar suas ideias e produtos com IA, clica no link pra entrar em contato e entre na comunidade IA Overflow.
Generalistas Batem Especialistas: A Surpresa
A Tencent colocou mais de 30 modelos de ponta para rodar nesse benchmark, e o resultado foi meio contraintuitivo. Enquanto modelos top como Gemini-2.5-Pro e Claude 4.0-Sonnet lideraram, a descoberta mais legal foi que modelos generalistas, como o Qwen-2.5-Instruct, se saíram melhor em tarefas criativas do que modelos especializados em código (Qwen-2.5-coder) ou visão (Qwen-2.5-VL).
Por quê? Porque criar algo com boa aparência e boa UX não é só sobre saber codificar ou "enxergar". É sobre ter um mix de habilidades: raciocínio robusto, entender bem as instruções (as nuances!) e ter um senso implícito de estética. Coisas que os modelos generalistas, por natureza, estão desenvolvendo mais holisticamente.
Essa visão de que precisamos de uma combinação de habilidades, e não apenas especialização pura, bate muito com o que vejo na prática, especialmente no desenvolvimento de soluções de Vertical AI. Não adianta a ferramenta ser super especialista se ela não consegue ter um bom entendimento do contexto geral e um mínimo de "bom gosto" para entregar algo que seja realmente utilizável e eficiente no dia a dia do negócio.
O Futuro da IA Criativa
Um benchmark como esse é crucial porque ele eleva a barra. Agora, a gente não vai mais aceitar só código que roda. A gente vai começar a exigir código que roda bem, que parece bem feito e que oferece uma boa experiência. Isso empurra os desenvolvedores de IA a criarem modelos que não são só "inteligentes" no sentido funcional, mas que também têm uma pitada de "sensibilidade" ou "gosto" - mesmo que esse gosto seja aprendido via dados e avaliações complexas.
É um passo importante para que a IA deixe de ser apenas uma ferramenta para criar rascunhos e se torne capaz de gerar produtos digitais mais polidos e prontos para usar. O caminho é longo, mas benchmarks assim mostram que estamos caminhando para que a IA não só construa a casa, mas também se preocupe se a pintura tá bonita e se a porta abre do lado certo.
No mais, sigo otimista, mas com os pés no chão. Em Deus nós confiamos, o resto me tragam dados. E agora, dados de "gosto" e "UX" pra IA!