Em uma disputa organizada pelo Washington Post, os cinco principais chatbots do mercado: ChatGPT, Gemini, Claude, Meta AI e Copilot
aram por um teste de compreensão, raciocínio e precisão em diferentes áreas de conhecimento. O resultado surpreendeu: Claude, da empresa Anthropic, foi eleito o melhor modelo, superando nomes mais populares como ChatGPT e Gemini.
A competição foi realizada com o apoio de jurados especializados, incluindo autores de livros, médicos, advogados e jornalistas, que avaliaram o desempenho das IAs em 115 perguntas baseadas em leituras reais e testes de análise crítica.
Os testes foram complexos e reveladores 1e6y66
Cada chatbot foi desafiado a ler e interpretar quatro tipos de textos:
- Um romance literário
- Um relatório de pesquisa médica
- Dois contratos jurídicos
- Discursos do ex-presidente Donald Trump
Além de responder perguntas factuais, os bots precisaram recomendar alterações nos textos, identificar falhas argumentativas e até corrigir distorções em falas políticas.
Em quase todos os testes, apenas Claude não inventou (ou “alucinou”) informações, um erro comum em IAs generativas.
Desempenho por área 6l5r3c
Literatura: Nenhuma IA se saiu bem, mas Claude foi o único a acertar todos os fatos sobre o livro analisado. O Gemini foi o mais criticado por erros e superficialidade.
Direito: Claude novamente liderou, ao compreender nuances e sugerir alterações relevantes nos contratos.
Medicina: Chatbots se saíram melhor nessa área, mas Claude foi o único a receber nota 10 pelo resumo de um artigo sobre covid longa.
Política: O ChatGPT foi o destaque, identificando corretamente distorções factuais em discursos de Trump, mas teve desempenho inferior em Direito, o que pesou no resultado final.
Resultado final: 5l3t5d
No placar geral (de 0 a 100)
Claude: 69,9 pontos
ChatGPT: 68,4
Gemini: 49,7
Copilot: 49,0
Meta AI: 45,0
Segundo os avaliadores, o Claude foi o único que não cometeu nenhuma alucinação ao longo de todo o teste, além de apresentar respostas mais completas, analíticas e confiáveis.
Mesmo assim, nenhum dos chatbots ou da média de 70, mostrando que a tecnologia ainda tem limitações importantes, especialmente em áreas sensíveis como direito e saúde.
Para mais análises sobre inteligência artificial e tecnologia, siga: @todasasnoticiasbr
