D’après la divulgation de la fiche système d’Anthropic, le modèle Mythos 5 a permis à des microbiologistes généralistes de surpasser des spécialistes lors d’un exercice red team de défense biologique sur 16 heures, avec 2 équipes généralistes sur 3 dépassant toutes les 3 équipes d’experts en qualité scientifique et faisabilité. Les experts ont estimé que la tâche exigerait typiquement de 40 à 95 jours ouvrables sans assistance par IA, avec une moyenne de 72,5 jours.
Cependant, Anthropic a noté que Mythos 5 reste limité dans ses capacités de recherche autonome. Le modèle a montré une faible idéation ouverte, avait tendance à recombiner la littérature existante plutôt qu’à proposer de nouvelles approches, et pouvait continuer à s’appuyer sur des cadres erronés même après avoir identifié des défauts. Le benchmark de prévision scientifique CUSP a corroboré ces résultats : GPT-5.4 a atteint 81,9% d’exactitude sur des tâches d’identification de mécanismes, mais seulement 45,3% à 51,9% sur la classification binaire de savoir si des avancées scientifiques réussiraient réellement, proche du niveau d’un simple hasard.