BioMysteryBench: Mythos 解 специалистам — неразрешимая задача 29,6%

29 апреля Anthropic опубликовала в официальном исследовательском сообщении BioMysteryBench — новый набор контрольных оценок для способности ИИ выполнять биоинформатический анализ, состоящий из открытых вопросов из реальных исследовательских сценариев. Самые примечательные данные: среди задач, которые не смогли решить после попыток группы экспертов-людей, флагманская модель Anthropic Mythos решила 29,6%, а Opus 4,7 — 27,0%.

Дизайн оценки: две ветки — задачи, которые можно решить, и задачи, которые не могут решить эксперты

BioMysteryBench состоит из двух типов задач. Первая категория — «задачи, которые можно решить»: аналитические задания, разработанные специалистами по биоинформатике и имеющие сопоставимые стандартные ответы. Вторая категория — «задачи, которые не могут решить эксперты»: вопросы, которые после попыток человеческой экспертной группы не удаётся найти с достоверным решением; они предназначены для проверки, может ли модель выйти за пределы текущих знаний в этой области.

В части «задач, которые можно решить» модели Anthropic разных поколений демонстрируют чёткий градиент возможностей: Claude Haiku 4,5 решает 36,8%, Claude Sonnet 4,6 — 71,8%, а новейший флагман Claude Mythos — 82,6%. Этот градиент в целом соответствует тому, как Anthropic публично описывает различия в возможностях моделей: Haiku — лёгкая модель, Sonnet — основная, Mythos — топовая исследовательская.

По-настоящему обсуждаемой является часть «задачи, которые не могут решить эксперты». Эти задачи помечаются как «неразрешимые или без консенсуса» после оценки группой экспертов в области биоинформатики; Mythos решает 29,6%, а Opus 4,7 — 27,0%. Этот результат — не единичное доказательство «модель сильнее людей». Точнее: там, где эксперты не могут справиться с задачами из‑за ограничений по путям, времени или ресурсам, ИИ способен предложить верифицируемые траектории решения. Это может быть не окончательный ответ, но у такого подхода есть свойство «ракурса, который не пробовали люди».

Параллельное продвижение с Claude for Life Sciences

BioMysteryBench согласуется по направлению с планом Anthropic «Claude for Life Sciences», который компания продвигает с конца 2025 года. Последний нацелен на конкретные сценарии применения — разработку лекарств, геномика, дизайн клинических исследований и т. п. Первый же использует методы оценки, чтобы количественно измерять прогресс «исследовательского уровня» способностей ИИ в области наук о жизни. Сигнал их комбинации таков: Anthropic рассматривает биомедицину как одно из основных направлений долгосрочного применения Claude и вступает в конкуренцию с линией DeepMind AlphaFold, предлагая другой вход.

Если цифры Mythos — почти 30% решённых задач из категории «эксперты не смогли решить» — удастся воспроизвести в независимой верификации третьими сторонами, это станет ранним подтверждением практической ценности ИИ для научно-исследовательских сценариев. Дальнейшие точки наблюдения включают: будет ли BioMysteryBench принят другими исследовательскими организациями как стандартная оценка, процесс верификации человеческих экспертов, которые смогли решить задачи, и сможет ли Mythos воспроизвести результаты тестов в реальных исследовательских проектах.

Эта статья BioMysteryBench:Mythos 解專家無解題 29.6% впервые появилась на 鏈新聞 ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев