Fique conectado com a gente

Olá, o que você está procurando? jo4w

Tecnologia 1i4s6y

Nem ChatGPT, nem Gemini: outra IA vence desafio com os maiores chatbots do mundo c4no

Essa IA surpreendeu ao liderar competição de compreensão e análise de textos complexos

Celulares com apps de IAs
(Imagem: Captura de Tela)

Em uma disputa organizada pelo Washington Post, os cinco principais chatbots do mercado: ChatGPT, Gemini, Claude, Meta AI e Copilot

aram por um teste de compreensão, raciocínio e precisão em diferentes áreas de conhecimento. O resultado surpreendeu: Claude, da empresa Anthropic, foi eleito o melhor modelo, superando nomes mais populares como ChatGPT e Gemini.

A competição foi realizada com o apoio de jurados especializados, incluindo autores de livros, médicos, advogados e jornalistas, que avaliaram o desempenho das IAs em 115 perguntas baseadas em leituras reais e testes de análise crítica.

Os testes foram complexos e reveladores 1e6y66

Cada chatbot foi desafiado a ler e interpretar quatro tipos de textos:

  • Um romance literário
  • Um relatório de pesquisa médica
  • Dois contratos jurídicos
  • Discursos do ex-presidente Donald Trump

Além de responder perguntas factuais, os bots precisaram recomendar alterações nos textos, identificar falhas argumentativas e até corrigir distorções em falas políticas.

Em quase todos os testes, apenas Claude não inventou (ou “alucinou”) informações, um erro comum em IAs generativas.

Desempenho por área 6l5r3c

Literatura: Nenhuma IA se saiu bem, mas Claude foi o único a acertar todos os fatos sobre o livro analisado. O Gemini foi o mais criticado por erros e superficialidade.

Direito: Claude novamente liderou, ao compreender nuances e sugerir alterações relevantes nos contratos.

Medicina: Chatbots se saíram melhor nessa área, mas Claude foi o único a receber nota 10 pelo resumo de um artigo sobre covid longa.

Política: O ChatGPT foi o destaque, identificando corretamente distorções factuais em discursos de Trump, mas teve desempenho inferior em Direito, o que pesou no resultado final.

Resultado final: 5l3t5d

No placar geral (de 0 a 100)

Claude: 69,9 pontos

ChatGPT: 68,4

Gemini: 49,7

Copilot: 49,0

Meta AI: 45,0

Segundo os avaliadores, o Claude foi o único que não cometeu nenhuma alucinação ao longo de todo o teste, além de apresentar respostas mais completas, analíticas e confiáveis.

Mesmo assim, nenhum dos chatbots ou da média de 70, mostrando que a tecnologia ainda tem limitações importantes, especialmente em áreas sensíveis como direito e saúde.

Para mais análises sobre inteligência artificial e tecnologia, siga: @todasasnoticiasbr

Leia também 3g3r6y

novo layout do app Snapseed no iPhone com destaque para favoritos novo layout do app Snapseed no iPhone com destaque para favoritos

Tecnologia 3vf6g

Editor de imagens popular nos anos 2010 volta a receber atenção com nova interface e recurso de favoritos

mapa com alertas de queda de internet ao redor do mundo mapa com alertas de queda de internet ao redor do mundo

Tecnologia 3vf6g

Instabilidade global afetou serviços de Google, plataformas online e gerou efeito dominó em várias regiões

GPT fora do ar GPT fora do ar

Tecnologia 3vf6g

Usuários relatam instabilidade no ChatGPT e expressam frustração e bom humor com situação inesperada

Nova IA Meta Nova IA Meta

Tecnologia 3vf6g

Empresa de Zuckerberg quer correr atrás das rivais e comprará metade de empresa usada por gigantes como Google e Microsoft