Mercury 2 от Inception Labs набирает 90 баллов на AIME 2026 и опережает DiffusionGemma от Google

Inception Labs представила Mercury 2 в четверг, позиционировав её как самый быстрый в мире модель рассуждений по скорости примерно 1 000 токенов в секунду. Модель набрала 90 на бенчмарке AIME 2026, обойдя недавно выпущенную Google DiffusionGemma, которая показала 69,1% на том же тесте при сходной скорости генерации. Обе модели используют диффузионную параллельную генерацию, а не последовательную обработку токенов, что отражает сдвиг в отрасли в сторону более быстрых методов инференса.

Mercury 2 обходит DiffusionGemma на математическом бенчмарке

Mercury 2 генерирует примерно 1 000 токенов в секунду — фрагменты текста, которые ИИ-модель читает и записывает — против примерно 89 токенов в секунду у рассуждающей Claude Haiku 4,5 от Anthropic и 71 у GPT-5 Mini от OpenAI, согласно заявлению Inception Labs. На AIME 2026, составленном из реальных задач American Invitational Mathematics Examination, и измеряемом как процент правильно решённых, Mercury 2 достигла 90%. Google тестировала DiffusionGemma на том же наборе: она набрала 69,1%, тогда как обычная, не диффузионная, Gemma 4 показала 88,3% на том же тесте.

На GPQA, научном бенчмарке уровня PhD, картина почти такая же: модели почти делят результат, Mercury 2 — 77% против 73,2% у DiffusionGemma. В руководстве для разработчиков Google стандартная Gemma 4 рекомендуется для приложений, где требуется максимальное качество, признавая, что DiffusionGemma уступает ей во всём. DiffusionGemma бесплатна и поставляется с открытыми весами на Hugging Face. Mercury 2 — платная API-модель с закрытыми весами.

Диффузионные модели заменяют последовательную генерацию токенов

Обе модели отказываются от «пишущей машинки» при генерации текста. Стандартный чатбот пишет одно слово, проверяет то, что только что написал, затем пишет следующее — и так по кругу, пока ответ не будет завершён. Диффузионные модели вместо этого заполняют блок текста случайными токенами-заглушками и удаляют «шум» в нескольких параллельных проходах — тот же приём, который превращает статичное изображение в фото в генераторах изображений вроде Stable Diffusion — пока весь блок не зафиксируется в готовый ответ целиком за один раз.

Augment Code сообщает о снижении задержки на 82% в продакшене

Augment Code, компания с AI-инструментами для программирования, заменила Claude Opus 4.7 на Mercury 2 на контекст-компактере в субагенте Anthropic и увидела снижение задержки на 82% и сокращение затрат на 90%, при этом сообщив о том же качестве вывода, согласно совместному кейс-исследованию.

Inception Labs привлекла раунд на 50 миллионов долларов

Inception Labs привлекла 50 миллионов долларов, получив поддержку от венчурного подразделения Nvidia и индивидуальных инвесторов Эндрю Нга и Андрея Карпати. Стартап был построен на исследованиях сооснователя Стэфано Эрмона, профессора Стэнфорда, который соавтором некоторых score-based техник диффузии, лежащих в основе современных генераторов изображений.

Параллельная генерация позволяет архитектуру multi-agent системы

Сложные AI-системы — это оркестры специализированных помощников: один отвечает за глубокие рассуждения, несколько — за быстрое суммирование, маршрутизацию, поиск инструментов, проверку вывода. Последовательные модели делают такие служебные вызовы дорогими и медленными. Параллельные диффузионные модели делают их достаточно дешёвыми и быстрыми, чтобы использовать их широко. Mercury 2 сейчас доступна как API/облако, а полноценная экосистема — локальные рантаймы, фреймворки агентных систем — всё ещё догоняет.

Скоростно-чувствительные сценарии выигрывают от диффузионного подхода

Среди сценариев — real-time программирование, где модель успевает за правками, многоагентное программирование или системы поддержки, где происходит множество быстрых под-вызовов, голосовые интерфейсы, которые не ощущаются «с лагом», а также любые сценарии автодополнения с низкой задержкой или предсказания следующего действия. На масштабе экономия по стоимости и энергии за счёт более высокой пропускной способности на стандартном железе быстро накапливается, по данным Inception Labs.

FAQ

Что Inception Labs объявила в четверг? Inception Labs представила Mercury 2 в четверг, назвав её самым быстрым в мире моделью рассуждений. Она генерирует примерно 1 000 токенов в секунду и набрала 90 на бенчмарке AIME 2026.

Как Mercury 2 сравнивается с DiffusionGemma от Google на бенчмарках? Mercury 2 набрала 90 на AIME 2026, тогда как DiffusionGemma от Google показала 69,1% на том же тесте. На GPQA, научном бенчмарке уровня PhD, Mercury 2 достигла 77% против 73,2% у DiffusionGemma.

Какие улучшения по стоимости и задержке заявила Augment Code? Augment Code заменила Claude Opus 4.7 на Mercury 2 на контекст-компактере в субагенте Anthropic и увидела снижение задержки на 82% и сокращение затрат на 90%, при этом сообщив о том же качестве вывода, согласно совместному кейс-исследованию.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев