BioMysteryBench: Mythos O especialista em desvendar mitos sem solução 29,6%

A 29 de abril, a Anthropic publicou, num anúncio oficial de investigação, o BioMysteryBench — um novo referencial de avaliação para capacidades de análise de bioinformática por IA, composto por questões abertas em cenários reais de investigação. Os dados que mais merecem atenção são os seguintes: em questões que nenhum candidato a partir de um painel de especialistas humanos conseguiu resolver, o modelo de topo Mythos da Anthropic conseguiu resolver 29,6%, enquanto o Opus 4,7 resolveu 27,0%.

Conceção da avaliação: duas vertentes — questões resolvíveis e questões não resolvíveis por especialistas

O BioMysteryBench é composto por dois tipos de questões. O primeiro é o das “questões resolvíveis” — tarefas de análise concebidas por investigadores de bioinformática, com respostas padrão para comparação; o segundo é o das “questões não resolvíveis por especialistas” — questões que, após a tentativa de um painel de especialistas humanos, continuam sem que estes consigam encontrar uma resposta credível, sendo usadas para testar se o modelo consegue ultrapassar os limites do conhecimento existente na área.

Na componente das questões resolvíveis, os modelos de várias gerações da Anthropic mostram um gradiente claro de capacidades: o Claude Haiku 4,5 resolveu 36,8%, o Claude Sonnet 4,6 atingiu 71,8% e o mais recente topo de gama, o Claude Mythos, chegou a 82,6%. Este gradiente está, em linhas gerais, alinhado com as diferenças de capacidades que a Anthropic afirma para os seus modelos — Haiku como modelo ligeiro, Sonnet como modelo principal e Mythos como modelo de investigação de topo.

O que é verdadeiramente relevante, porém, está na vertente das questões não resolvíveis por especialistas. Este tipo de questão é assinalado como “impossível” ou “sem consenso” após avaliação por um painel de especialistas em bioinformática; o Mythos conseguiu resolver 29,6% e o Opus 4,7 resolveu 27,0%. Este resultado não é uma prova única de que “o modelo é melhor do que os humanos” — uma formulação mais rigorosa seria: em problemas que os especialistas não conseguem tratar devido a limitações de percurso, tempo ou recursos, a IA consegue propor percursos de solução que podem ser validados; pode não ser a resposta final, mas tem a característica de “um ângulo que os humanos não chegaram a tentar”.

Avanço em paralelo com o Claude for Life Sciences

O BioMysteryBench segue a mesma direção do programa “Claude for Life Sciences”, promovido pela Anthropic desde a segunda metade de 2025. O primeiro tem como alvo aplicações concretas como desenvolvimento de fármacos, genómica e conceção de ensaios clínicos; o segundo mede, através de métodos de avaliação, o progresso das “capacidades de nível de investigação” da IA no domínio das ciências da vida. O sinal combinado é o seguinte: a Anthropic posiciona a biomedicina como uma das principais áreas de aplicação a longo prazo do Claude, competindo com a abordagem da DeepMind AlphaFold através de uma porta de entrada diferente.

Se o número de cerca de 30% de questões não resolvíveis por especialistas que o Mythos consegue resolver conseguir ser reproduzido em validações independentes de terceiros, isso tornar-se-á uma demonstração precoce do valor prático dos modelos de IA em cenários de investigação científica. Os pontos a acompanhar incluem: se o BioMysteryBench vai ser adotado como avaliação-padrão por outras instituições de investigação, o procedimento de validação dos especialistas humanos que conseguem resolver as questões e se o Mythos consegue replicar os resultados de teste em projetos de investigação reais.

Este artigo BioMysteryBench: Myhos resolve questões não resolvíveis por especialistas 29,6% apareceu pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário