El mito 5 permite que los PhDs generalistas superen a los especialistas en un Red Team de defensa biológica de 16 horas

Según la divulgación de la ficha del sistema de Anthropic, el modelo Mythos 5 permitió que microbiólogos generalistas superaran a especialistas en un ejercicio de red team de biodefensa de 16 horas, con 2 de cada 3 equipos generalistas superando a los 3 equipos de expertos en calidad científica y viabilidad. Los expertos estimaron que la tarea normalmente requeriría de 40 a 95 días laborables sin asistencia de IA, con un promedio de 72,5 días.

Sin embargo, Anthropic señaló que Mythos 5 sigue teniendo limitaciones en capacidades de investigación autónoma. El modelo mostró una ideación abierta débil, tendió a recombinar literatura existente en lugar de proponer enfoques novedosos y pudo seguir persiguiendo marcos defectuosos incluso después de identificar fallos. El benchmark de pronóstico científico CUSP corroboró estos hallazgos: mostró que GPT-5.4 logró 81,9% de precisión en tareas de identificación de mecanismos, pero solo 45,3% a 51,9% en clasificación binaria de si los avances científicos realmente tendrían éxito, niveles cercanos a la conjetura aleatoria.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios