Menurut pengungkapan system card Anthropic, model Mythos 5 memungkinkan para ahli mikrobiologi umum mengungguli spesialis dalam latihan red team biodefense selama 16 jam, dengan 2 dari 3 tim generalis melampaui semua 3 tim ahli dalam kualitas ilmiah dan kelayakan. Para ahli memperkirakan tugas tersebut biasanya memerlukan 40 hingga 95 hari kerja tanpa bantuan AI, dengan rata-rata 72,5 hari.
Namun, Anthropic mencatat bahwa Mythos 5 masih terbatas dalam kemampuan riset otonom. Model tersebut menunjukkan ideasi terbuka yang lemah, cenderung mengombinasikan literatur yang sudah ada alih-alih mengusulkan pendekatan baru, dan dapat terus mengejar kerangka yang keliru bahkan setelah menemukan kekurangan. Benchmark CUSP untuk prakiraan ilmiah menguatkan temuan ini, dengan menunjukkan GPT-5.4 mencapai akurasi 81,9% pada tugas identifikasi mekanisme, tetapi hanya 45,3% hingga 51,9% pada klasifikasi biner tentang apakah kemajuan ilmiah benar-benar akan berhasil, mendekati tingkat tebak acak.