Mito 5 Permite que PhDs generalistas superem especialistas em Red Team de biodefesa de 16 horas

De acordo com a divulgação do sistema card da Anthropic, o modelo Mythos 5 permitiu que microbiologistas generalistas superassem especialistas numa experiência de red team de biodefesa com duração de 16 horas, com 2 em 3 equipas generalistas a ultrapassarem todas as 3 equipas de peritos em qualidade científica e viabilidade. Os peritos estimaram que a tarefa normalmente exigiria de 40 a 95 dias úteis sem assistência de IA, com uma média de 72,5 dias.

No entanto, a Anthropic referiu que o Mythos 5 continua limitado em capacidades de investigação autónoma. O modelo mostrou fraca ideação aberta, tendia a recombinar literatura existente em vez de propor abordagens novas, e podia continuar a avançar com frameworks falhados mesmo depois de identificar falhas. O benchmark CUSP de previsão científica corroborou estas conclusões, mostrando que o GPT-5.4 atingiu 81,9% de precisão em tarefas de identificação de mecanismos, mas apenas 45,3% a 51,9% na classificação binária sobre se os avanços científicos teriam realmente sucesso, a valores próximos de acertos aleatórios.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário