Tecnologia 1i4s6y

Nem ChatGPT, nem Gemini: outra IA vence desafio com os maiores chatbots do mundo c4no

Essa IA surpreendeu ao liderar competição de compreensão e análise de textos complexos

Por

Gabriel Yuri

Publicado há

12 horas atrás

(Imagem: Captura de Tela)

Em uma disputa organizada pelo Washington Post, os cinco principais chatbots do mercado: ChatGPT, Gemini, Claude, Meta AI e Copilot

aram por um teste de compreensão, raciocínio e precisão em diferentes áreas de conhecimento. O resultado surpreendeu: Claude, da empresa Anthropic, foi eleito o melhor modelo, superando nomes mais populares como ChatGPT e Gemini.

A competição foi realizada com o apoio de jurados especializados, incluindo autores de livros, médicos, advogados e jornalistas, que avaliaram o desempenho das IAs em 115 perguntas baseadas em leituras reais e testes de análise crítica.

Os testes foram complexos e reveladores 1e6y66

Cada chatbot foi desafiado a ler e interpretar quatro tipos de textos:

Um romance literário
Um relatório de pesquisa médica
Dois contratos jurídicos
Discursos do ex-presidente Donald Trump

Além de responder perguntas factuais, os bots precisaram recomendar alterações nos textos, identificar falhas argumentativas e até corrigir distorções em falas políticas.

Em quase todos os testes, apenas Claude não inventou (ou “alucinou”) informações, um erro comum em IAs generativas.

Desempenho por área 6l5r3c

Literatura: Nenhuma IA se saiu bem, mas Claude foi o único a acertar todos os fatos sobre o livro analisado. O Gemini foi o mais criticado por erros e superficialidade.

Direito: Claude novamente liderou, ao compreender nuances e sugerir alterações relevantes nos contratos.

Medicina: Chatbots se saíram melhor nessa área, mas Claude foi o único a receber nota 10 pelo resumo de um artigo sobre covid longa.

Política: O ChatGPT foi o destaque, identificando corretamente distorções factuais em discursos de Trump, mas teve desempenho inferior em Direito, o que pesou no resultado final.

Resultado final: 5l3t5d

No placar geral (de 0 a 100)

Claude: 69,9 pontos

ChatGPT: 68,4

Gemini: 49,7

Copilot: 49,0

Meta AI: 45,0

Segundo os avaliadores, o Claude foi o único que não cometeu nenhuma alucinação ao longo de todo o teste, além de apresentar respostas mais completas, analíticas e confiáveis.

Mesmo assim, nenhum dos chatbots ou da média de 70, mostrando que a tecnologia ainda tem limitações importantes, especialmente em áreas sensíveis como direito e saúde.

Para mais análises sobre inteligência artificial e tecnologia, siga: @todasasnoticiasbr

Marcadores:Anthropic, ChatGPT, Claude, Gemini, Inteligência artificial, Tecnologia

Tecnologia 3vf6g

Google revive app que ninguém mais usava e entrega novo visual no iPhone — veja qual 5p1x4i

Editor de imagens popular nos anos 2010 volta a receber atenção com nova interface e recurso de favoritos

Gabriel Yuri10 horas atrás

mapa com alertas de queda de internet ao redor do mundo

Tecnologia 3vf6g

Parte da internet caiu no mundo todo nesta semana — entenda o que causou o apagão 232p1f

Instabilidade global afetou serviços de Google, plataformas online e gerou efeito dominó em várias regiões

Gabriel Yuri14 horas atrás

Tecnologia 3vf6g

ChatGPT sai do ar pela segunda vez em menos de uma semana e preocupa usuários 2969y

Usuários relatam instabilidade no ChatGPT e expressam frustração e bom humor com situação inesperada

Gabriel Yuri3 dias atrás

Tecnologia 3vf6g

Meta vai gastar R$ 83 bilhões para criar inteligência artificial que “pensa como um ser humano” 4i7338

Empresa de Zuckerberg quer correr atrás das rivais e comprará metade de empresa usada por gigantes como Google e Microsoft

Gabriel Yuri4 dias atrás

Todas as Notícias 13e1a

Tecnologia 1i4s6y

Nem ChatGPT, nem Gemini: outra IA vence desafio com os maiores chatbots do mundo c4no

Os testes foram complexos e reveladores 1e6y66

Desempenho por área 6l5r3c

Resultado final: 5l3t5d

Leia também 3g3r6y

Tecnologia 3vf6g

Google revive app que ninguém mais usava e entrega novo visual no iPhone — veja qual 5p1x4i

Tecnologia 3vf6g

Parte da internet caiu no mundo todo nesta semana — entenda o que causou o apagão 232p1f

Tecnologia 3vf6g

ChatGPT sai do ar pela segunda vez em menos de uma semana e preocupa usuários 2969y

Tecnologia 3vf6g

Meta vai gastar R$ 83 bilhões para criar inteligência artificial que “pensa como um ser humano” 4i7338