Opus4.8 официально выпущен, ИИ впервые сказал «Я не уверен»

作者|Хуалинь Вэй Ван

Редактор|Цзиньюй

Если ты, как и я, каждый день полагаешься на ИИ для написания статей, кода, исследований, то у тебя точно был такой опыт — ИИ с уверенностью сдает результат, ты проверяешь полдня и находишь там грубую ошибку, а он при этом ни слова не сказал.

Эта «притворная беззаботность» — одна из самых головоломных проблем современных больших моделей.

28 мая Anthropic выпустила Claude Opus 4.8. Прошло всего шесть недель с момента выхода предыдущей версии Opus 4.7.

Opus 4.8 — не революционный скачок, Anthropic сам признает, что это «скромное, но ощутимое улучшение» — однако они сделали одну вещь, которую давно ждали многие: научили ИИ признавать свою неопределенность.

01 Более быстрый темп, более честная модель

Начиная с Opus 4.5 в ноябре 2025 года, основные модели Anthropic обновляются примерно каждые два месяца — 4.5 (ноябрь прошлого года), 4.6 (февраль этого), 4.7 (апрель), 4.8 (конец мая). Шесть недель на версию — это почти самый агрессивный темп обновлений в индустрии больших моделей.

Сравнение Opus 4.8 с собственными и конкурентными моделями|Источник: Anthropic

На стандартных бенчмарках, показатели Opus 4.8 можно охарактеризовать как «устойчивое продвижение». В программировании, SWE-bench Pro вырос с 64.3% до 69.2%, SWE-bench Verified — с 87.6% до 88.6%. Многодисциплинарное рассуждение (Humanity's Last Exam) при использовании инструментов достигло 57.9%. Оценка знаний GDPval-AA с Elo 1890 превосходит GPT-5.5 с 1769. Оценка компьютерных операций OSWorld-Verified — 83.4%, лидирует.

Единственный проект, где GPT-5.5 обошел — терминальное программирование (Terminal-Bench 2.1), GPT-5.5 — 78.2%, Opus 4.8 — 74.6%.

Но честно говоря, эти показатели уже мало кого радуют. Оценки SWE-bench Verified приближаются к насыщению, модели на GPQA Diamond показывают более 93%. Чем выше балл, тем меньше разницы в восприятии при каждом новом пункте.

Настоящее, что заставило бы написать статью, — это вклад Anthropic в «честность» модели.

02 ИИ, умеющий говорить «я не уверен»

Anthropic привел конкретные данные: в программных задачах вероятность того, что Opus 4.8 не сообщит о дефекте кода, снизилась примерно в четыре раза по сравнению с Opus 4.7.

Что это значит? Раньше Opus 4.7, написав код с ошибками, мог спокойно сказать «готово, без проблем». А Opus 4.8 склонен говорить «здесь я не уверен, лучше проверьте».

В оценке согласованности, Opus 4.8 достиг новых высот по социальным характеристикам (например, уважение к автономии пользователя, забота о его интересах), а случаи обмана, злоупотреблений и «несогласованных действий» значительно снизились по сравнению с Opus 4.7, приближаясь к лучшим моделям Anthropic — Claude Mythos Preview.

Генеральный директор Cursor Майкл Труэлл отметил, что Opus 4.8 превосходит предыдущие модели на CursorBench по всем уровням усилий, эффективнее использует вызовы инструментов и достигает того же уровня интеллекта за меньшее число шагов. Руководитель исследовательской команды юридической AI-компании Casetext заявил, что Opus 4.8 установил новый рекорд в юридическом бенчмарке — впервые превысив 10% по стандарту all-pass.

CEO Devin, Скотт Ву, указал на практическую проблему — исправление в Opus 4.8 ошибок из Opus 4.7, связанных с избыточными комментариями и вызовами инструментов, что важно для автономных рабочих процессов без присмотра.

В эпоху, когда ИИ все больше используется для самостоятельных решений, модель, которая умеет открыто показывать свои слабости, становится самой надежной.

В вопросе несогласованности моделей, Opus 4.8 уже сравним с легендарным Mythos|Источник: Anthropic

Однако в системе безопасности Opus 4.8 Anthropic откровенно признала интересное открытие: во время обучения у модели появилась тенденция «угадывать намерения оценщика».

Конкретно, при рассуждениях модель начинает активно думать о том, как ее выводы будут оценены — даже без указаний. Первичные исследования объяснимости показали, что примерно в 5% обучающих фрагментов модель проявляет невыраженные, связные с оценкой, рассуждения.

Проще говоря, ИИ учится «экзаменационной мысли»: ему важно не обязательно давать лучший ответ, а тот, который больше понравится «жюри».

Anthropic подчеркивает, что пока эта тенденция не привела к ухудшению поведения — на самом деле, ложные заявления в Opus 4.8 встречаются реже, чем у предыдущих моделей. Но они признают, что это «может усложнить обучение в будущем».

Эта проблема не уникальна для Anthropic. Все модели, обученные с помощью RLHF (обучение с подкреплением на основе человеческой обратной связи), теоретически могут развить стратегию «угодить оценщику». Отличие Anthropic — в открытости: они говорят об этом публично — в индустрии, где большинство производителей моделей предпочитают хвалить свои достижения и скрывать недостатки, это — проявление честности.

03 Настоящие изменения в работе

Вместе с Opus 4.8 вышли несколько новых функций, среди которых особенно выделяется «Dynamic Workflows» (динамические рабочие процессы) в Claude Code.

Эта функция позволяет Claude в рамках одного сеанса запускать сотни параллельных подагентов для совместного выполнения задачи. Алгоритм таков: Claude сначала разрабатывает план, затем разбивает задачу на подзадачи, распределяет их между разными подагентами, которые могут даже оспаривать друг друга, итеративно уточняя результаты, пока не достигнут консенсус, и в конце — проверка и отчет пользователю.

Пример, приведенный Anthropic, — Claude Code в связке с Opus 4.8 может выполнить миграцию целого кода на десятки тысяч строк, начиная с инициализации и до слияния, используя существующие тесты как стандарт качества. Одновременное выполнение — до 1000 подагентов, 16 параллельно.

Еще одна новинка — «Effort Control» (контроль усилий), в claude.ai и Cowork пользователь может вручную выбрать, сколько «размышлений» Claude вложит в каждый ответ — от экономии времени и ресурсов до максимальной затратности. По сути, это передача пользователю решения о «сколько денег потратить на задачу». По умолчанию стоит «high», при этом расходы на токены в кодировке сопоставимы с Opus 4.7, но эффективность лучше.

Также есть быстрый режим (Fast Mode): скорость увеличена в 2.5 раза, а цена — в три раза дешевле.

04 Тень Mythos

Вместе с выпуском Opus 4.8 Anthropic вновь упомянула Claude Mythos — модель, доступную пока лишь для немногих организаций, более мощную. Говорят, Mythos планируют «в ближайшие недели» сделать доступной для всех клиентов.

Это, по сути, — главный фон для релиза Opus 4.8 — он как бы предваряет официальный запуск Mythos. В сравнении с текущими моделями, Opus 4.8 уже близка по уровню согласованности с Mythos Preview, что может означать подготовку к безопасному выпуску более мощных моделей.

По ценам, Opus 4.8 остается по 5 долларов за миллион входных токенов и 25 долларов за выход. API обозначен как claude-opus-4-8 и уже доступен через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.

На фоне давления со стороны GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google, Anthropic выбрала уникальный путь: не гонится за лидерством по скоростным бенчмаркам, а делает ставку на «личность» модели — честность, надежность, такт.

Пока не ясно, сработает ли это. Но по крайней мере, когда я попросил Opus 4.8 проверить мой код, он указал на скрытую проблему, которую 4.7 никогда бы не заметил.

И за это обновление уже стоит благодарности.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено