Согласно мониторингу Beating, заявленные победы мультиагентной системы Sakana AI Fugu Ultra над Fable 5 от Anthropic в бенчмарках научного мышления и кодирования вызывают широкий скептицизм среди ИИ-сообщества.
Критики утверждают, что результаты бенчмарков сильно зависят от тестовых скэффолдов, используемых во время оценки. Разные реализации скэффолдов могут вносить вариации на 10-20 пунктов, что означает, что заявленные различия в производительности могут отражать оптимизацию системной инженерии, а не фундаментальные улучшения возможностей моделей. И Sakana AI, и Anthropic опубликовали результаты на основе проприетарных, специфичных для вендоров скэффолдов без единой сторонней тестовой среды, что ограничивает надежность прямых сравнений.