29 апреля Anthropic опубликовала в официальном исследовательском сообщении BioMysteryBench — новый набор контрольных оценок для способности ИИ выполнять биоинформатический анализ, состоящий из открытых вопросов из реальных исследовательских сценариев. Самые примечательные данные: среди задач, которые не смогли решить после попыток группы экспертов-людей, флагманская модель Anthropic Mythos решила 29,6%, а Opus 4,7 — 27,0%.
Дизайн оценки: две ветки — задачи, которые можно решить, и задачи, которые не могут решить эксперты
BioMysteryBench состоит из двух типов задач. Первая категория — «задачи, которые можно решить»: аналитические задания, разработанные специалистами по биоинформатике и имеющие сопоставимые стандартные ответы. Вторая категория — «задачи, которые не могут решить эксперты»: вопросы, которые после попыток человеческой экспертной группы не удаётся найти с достоверным решением; они предназначены для проверки, может ли модель выйти за пределы текущих знаний в этой области.
В части «задач, которые можно решить» модели Anthropic разных поколений демонстрируют чёткий градиент возможностей: Claude Haiku 4,5 решает 36,8%, Claude Sonnet 4,6 — 71,8%, а новейший флагман Claude Mythos — 82,6%. Этот градиент в целом соответствует тому, как Anthropic публично описывает различия в возможностях моделей: Haiku — лёгкая модель, Sonnet — основная, Mythos — топовая исследовательская.
По-настоящему обсуждаемой является часть «задачи, которые не могут решить эксперты». Эти задачи помечаются как «неразрешимые или без консенсуса» после оценки группой экспертов в области биоинформатики; Mythos решает 29,6%, а Opus 4,7 — 27,0%. Этот результат — не единичное доказательство «модель сильнее людей». Точнее: там, где эксперты не могут справиться с задачами из‑за ограничений по путям, времени или ресурсам, ИИ способен предложить верифицируемые траектории решения. Это может быть не окончательный ответ, но у такого подхода есть свойство «ракурса, который не пробовали люди».
Параллельное продвижение с Claude for Life Sciences
BioMysteryBench согласуется по направлению с планом Anthropic «Claude for Life Sciences», который компания продвигает с конца 2025 года. Последний нацелен на конкретные сценарии применения — разработку лекарств, геномика, дизайн клинических исследований и т. п. Первый же использует методы оценки, чтобы количественно измерять прогресс «исследовательского уровня» способностей ИИ в области наук о жизни. Сигнал их комбинации таков: Anthropic рассматривает биомедицину как одно из основных направлений долгосрочного применения Claude и вступает в конкуренцию с линией DeepMind AlphaFold, предлагая другой вход.
Если цифры Mythos — почти 30% решённых задач из категории «эксперты не смогли решить» — удастся воспроизвести в независимой верификации третьими сторонами, это станет ранним подтверждением практической ценности ИИ для научно-исследовательских сценариев. Дальнейшие точки наблюдения включают: будет ли BioMysteryBench принят другими исследовательскими организациями как стандартная оценка, процесс верификации человеческих экспертов, которые смогли решить задачи, и сможет ли Mythos воспроизвести результаты тестов в реальных исследовательских проектах.
Эта статья BioMysteryBench:Mythos 解專家無解題 29.6% впервые появилась на 鏈新聞 ABMedia.
Related News
Anthropic ведёт переговоры о финансировании с оценкой более 900 миллиардов долларов; совет директоров примет решение самое быстрое в мае
Оксфордский институт интернета: дружелюбное обучение повышает частоту ошибок ИИ на 7,43 процентных пункта
Anthropic рассматривает новое финансирование: оценка превысила OpenAI и стала крупнейшей оценкой среди AI-стартапов
Отчёт по криптоисследованиям a16z: Уровень эксплуатации уязвимостей DeFi с использованием ИИ-агентов достиг 70%
СМИ США: проект административного указа Белого дома разрешает модели Anthropic Mythos войти в государственные структуры