Миф 5 позволяет универсальным PhD опережать специалистов в 16-часовой биозащите в роли red team

Согласно раскрытию карточки системы Anthropic, модель Mythos 5 позволила универсальным микробиологам обойти специалистов в 16-часовом учении red team по биозащите: 2 из 3 команд универсалов превзошли все 3 команды экспертов по научному качеству и реализуемости. Эксперты оценили, что без помощи ИИ выполнение задачи обычно заняло бы от 40 до 95 рабочих дней, в среднем — 72,5 дня.

Однако Anthropic отметил, что Mythos 5 по-прежнему ограничен в возможностях автономных исследований. Модель демонстрировала слабое открытое генерирование идей, чаще переформировывала существующую литературу вместо того, чтобы предлагать новые подходы, и могла продолжать следовать ошибочным рамкам даже после выявления недостатков. Бенчмарк CUSP по научному прогнозированию подтвердил эти выводы: GPT-5.4 достиг 81,9% точности в задачах на идентификацию механизмов, но лишь 45,3%–51,9% в бинарной классификации того, действительно ли научные достижения будут успешными — на уровне, близком к случайным догадкам.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев