Sakana AI Fugu Ultra проти Fable 5: Порівняння бенчмарків поставлено під сумнів через відмінності в тестових середовищах

За даними моніторингу Beating, заявлені перемоги мультиагентної системи Sakana AI Fugu Ultra над Fable 5 від Anthropic у тестах наукового мислення та програмування стикаються з широким скептицизмом з боку AI-спільноти.

Критики стверджують, що результати тестів сильно залежать від тестових каркасів (scaffolds), які використовуються під час оцінювання. Різні реалізації каркасів можуть призводити до варіацій у 10–20 пунктів, тобто заявлені відмінності у продуктивності можуть відображати оптимізацію системної інженерії, а не фундаментальні досягнення в можливостях моделі. І Sakana AI, і Anthropic опублікували результати на основі власних специфічних каркасів (scaffolds) без єдиного стороннього тестового середовища, що обмежує надійність прямих порівнянь.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів