
IA não pensa ou só precisa das ferramentas certas? O debate entre Apple e Pfizer
Fala meu povo! Mais uma pra conta no mundo da IA, e essa mexe com o básico: o que essas danadas realmente conseguem fazer? Estava lendo num artigo do site The Decoder sobre uma discussão quentíssima entre gente grande, a Apple de um lado (num estudo recente) e a Pfizer do outro (num comentário respondendo à Apple).
A Apple, num estudo que chamaram de "A Ilusão do Pensamento", deu a letra: os Modelos de Raciocínio Grandes (LRMs) batem num "paredão" quando a tarefa fica complexa demais. Cai a performance de repente, e eles disseram que isso aponta pra um limite fundamental do que essas máquinas conseguem "pensar".
O "paredão" do raciocínio segundo a Apple
Pensa em jogos de lógica ou quebra-cabeças tipo a Torre de Hanói ou aqueles de atravessar o rio com gente, lobo e cabra. A Apple testou os modelos com esses desafios só no texto puro. Enquanto era fácil, beleza. Aumentou a dificuldade, puff, a precisão desabou. Pra eles, isso é um sinal claro de que tem algo que a IA não pega quando o bicho pega de verdade.
Pfizer contra-ataca: a questão não é pensar, é executar
Aí vem a equipe da Pfizer e diz: "Não, peraí, a história não é bem essa". Eles concordam que a performance cai, mas argumentam que o problema não é uma barreira de "pensamento", e sim as condições artificiais dos testes. Forçar um modelo a resolver um problema super complexo SÓ com texto, sem poder usar ferramentas externas (tipo uma interface de programação), torna a tarefa MUITO mais difícil do que precisaria ser.
É como pedir pra um engenheiro resolver um cálculo estrutural gigante SÓ de cabeça, sem calculadora ou software. Ele pode ter o raciocínio todo, mas a chance de errar um número no meio do caminho, por mais genial que seja, é enorme. A Pfizer chama isso de "incapacidade aprendida": o modelo não consegue executar a sequência longa e perfeita, aí conclui, errado, que a tarefa é insolúvel.
Tem também o lance do "erro cumulativo". Numa tarefa com milhares de passos, cada passo tem uma chance mínima de erro. Multiplica essa chance por mil passos, e a probabilidade de chegar ao fim sem NENHUM erro cai drasticamente. Não é falta de "pensamento", é a estatística batendo na porta.
Com as ferramentas certas, a história muda
Pra provar o ponto, o pessoal da Pfizer testou uns modelos, tipo o GPT-4o e o o4-mini, mas dessa vez DANDO a eles acesso a uma ferramenta Python. Com a ferramenta, a coisa muda. O GPT-4o até tentou uma estratégia meio furada no começo, mas o o4-mini... esse notou o erro, analisou, e MUDOU a estratégia pra uma correta! Isso é o que na psicologia chamam de "Sistema 2" do Daniel Kahneman: aquele pensamento lento, analítico, que revisa a própria ideia depois de achar um erro.
Isso é ouro! Mostra que, com as ferramentas certas, a IA não só executa melhor, mas parece desenvolver algo mais parecido com a capacidade de corrigir o próprio rumo. Esse tipo de capacidade de ajuste estratégico é exatamente o que buscamos em soluções práticas.
Casos como esse sempre rendem conversas interessantes sobre como adaptar a IA para diferentes contextos e dar a ela os recursos certos para performar. Aliás, se você quiser trocar ideia sobre estratégias assim, sobre como equipar a IA para resolver seus problemas mais complexos, clica no link pra entrar em contato e entre na comunidade IA Overflow.
O que tiramos disso?
Esse debate mostra que a conversa sobre o "limite" da IA é mais complexa do que parece. Não é só "ela pensa" ou "ela não pensa". É sobre COMO testamos e que CONDIÇÕES damos a ela. Os benchmarks futuros precisam considerar isso: testar com e sem ferramentas. E mais, precisamos testar essa "metacognição" — a capacidade da IA de detectar e corrigir os próprios erros.
Isso tem implicações sérias, inclusive pra segurança. Um modelo que segue um plano furado cegamente é um risco. Um que consegue perceber o erro e mudar a rota é muito mais confiável.
No fim das contas, o estudo da Apple e a resposta da Pfizer mostram que o "paredão" que a Apple viu talvez não seja de raciocínio, mas de execução. E com as ferramentas certas, essa IA pode ir muito mais longe do que pensávamos, aprendendo até com os próprios vacilos.