Mythos 5 permet à des docteurs généralistes de surpasser des spécialistes lors d’un Red Team de défense biologique en 16 heures

D’après la divulgation de la fiche système d’Anthropic, le modèle Mythos 5 a permis à des microbiologistes généralistes de surpasser des spécialistes lors d’un exercice red team de défense biologique sur 16 heures, avec 2 équipes généralistes sur 3 dépassant toutes les 3 équipes d’experts en qualité scientifique et faisabilité. Les experts ont estimé que la tâche exigerait typiquement de 40 à 95 jours ouvrables sans assistance par IA, avec une moyenne de 72,5 jours.

Cependant, Anthropic a noté que Mythos 5 reste limité dans ses capacités de recherche autonome. Le modèle a montré une faible idéation ouverte, avait tendance à recombiner la littérature existante plutôt qu’à proposer de nouvelles approches, et pouvait continuer à s’appuyer sur des cadres erronés même après avoir identifié des défauts. Le benchmark de prévision scientifique CUSP a corroboré ces résultats : GPT-5.4 a atteint 81,9% d’exactitude sur des tâches d’identification de mécanismes, mais seulement 45,3% à 51,9% sur la classification binaire de savoir si des avancées scientifiques réussiraient réellement, proche du niveau d’un simple hasard.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire