De acordo com a divulgação da ficha de sistema da Anthropic, o modelo Mythos 5 permitiu que microbiologistas generalistas superassem especialistas em um exercício de red team de defesa biológica de 16 horas, com 2 de 3 equipes generalistas superando todas as 3 equipes de especialistas em qualidade científica e viabilidade. Os especialistas estimaram que a tarefa normalmente exigiria de 40 a 95 dias úteis sem assistência de IA, com uma média de 72,5 dias.
No entanto, a Anthropic observou que o Mythos 5 ainda tem limitações em capacidades de pesquisa autônoma. O modelo mostrou ideação fraca em aberto, tendia a recombinar literatura existente em vez de propor abordagens novas e podia continuar perseguindo estruturas falhas mesmo depois de identificar defeitos. O benchmark CUSP de previsão científica corroborou essas conclusões, mostrando que o GPT-5.4 alcançou 81,9% de acurácia em tarefas de identificação de mecanismos, mas apenas 45,3% a 51,9% na classificação binária de se avanços científicos realmente teriam sucesso, em níveis próximos a um chute aleatório.