Según la divulgación de la ficha del sistema de Anthropic, el modelo Mythos 5 permitió que microbiólogos generalistas superaran a especialistas en un ejercicio de red team de biodefensa de 16 horas, con 2 de cada 3 equipos generalistas superando a los 3 equipos de expertos en calidad científica y viabilidad. Los expertos estimaron que la tarea normalmente requeriría de 40 a 95 días laborables sin asistencia de IA, con un promedio de 72,5 días.
Sin embargo, Anthropic señaló que Mythos 5 sigue teniendo limitaciones en capacidades de investigación autónoma. El modelo mostró una ideación abierta débil, tendió a recombinar literatura existente en lugar de proponer enfoques novedosos y pudo seguir persiguiendo marcos defectuosos incluso después de identificar fallos. El benchmark de pronóstico científico CUSP corroboró estos hallazgos: mostró que GPT-5.4 logró 81,9% de precisión en tareas de identificación de mecanismos, pero solo 45,3% a 51,9% en clasificación binaria de si los avances científicos realmente tendrían éxito, niveles cercanos a la conjetura aleatoria.