Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Opus4.8 официально выпущен, ИИ впервые сказал «Я не уверен»
作者|Хуалинь Вэй Ван
Редактор|Цзиньюй
Если ты, как и я, каждый день полагаешься на ИИ для написания статей, кода, исследований, то у тебя точно был такой опыт — ИИ с уверенностью сдает результат, ты проверяешь полдня и находишь там грубую ошибку, а он при этом ни слова не сказал.
Эта «притворная беззаботность» — одна из самых головоломных проблем современных больших моделей.
28 мая Anthropic выпустила Claude Opus 4.8. Прошло всего шесть недель с момента выхода предыдущей версии Opus 4.7.
Opus 4.8 — не революционный скачок, Anthropic сам признает, что это «скромное, но ощутимое улучшение» — однако они сделали одну вещь, которую давно ждали многие: научили ИИ признавать свою неопределенность.
01 Более быстрый темп, более честная модель
Начиная с Opus 4.5 в ноябре 2025 года, основные модели Anthropic обновляются примерно каждые два месяца — 4.5 (ноябрь прошлого года), 4.6 (февраль этого), 4.7 (апрель), 4.8 (конец мая). Шесть недель на версию — это почти самый агрессивный темп обновлений в индустрии больших моделей.
Сравнение Opus 4.8 с собственными и конкурентными моделями|Источник: Anthropic
На стандартных бенчмарках, показатели Opus 4.8 можно охарактеризовать как «устойчивое продвижение». В программировании, SWE-bench Pro вырос с 64.3% до 69.2%, SWE-bench Verified — с 87.6% до 88.6%. Многодисциплинарное рассуждение (Humanity's Last Exam) при использовании инструментов достигло 57.9%. Оценка знаний GDPval-AA с Elo 1890 превосходит GPT-5.5 с 1769. Оценка компьютерных операций OSWorld-Verified — 83.4%, лидирует.
Единственный проект, где GPT-5.5 обошел — терминальное программирование (Terminal-Bench 2.1), GPT-5.5 — 78.2%, Opus 4.8 — 74.6%.
Но честно говоря, эти показатели уже мало кого радуют. Оценки SWE-bench Verified приближаются к насыщению, модели на GPQA Diamond показывают более 93%. Чем выше балл, тем меньше разницы в восприятии при каждом новом пункте.
Настоящее, что заставило бы написать статью, — это вклад Anthropic в «честность» модели.
02 ИИ, умеющий говорить «я не уверен»
Anthropic привел конкретные данные: в программных задачах вероятность того, что Opus 4.8 не сообщит о дефекте кода, снизилась примерно в четыре раза по сравнению с Opus 4.7.
Что это значит? Раньше Opus 4.7, написав код с ошибками, мог спокойно сказать «готово, без проблем». А Opus 4.8 склонен говорить «здесь я не уверен, лучше проверьте».
В оценке согласованности, Opus 4.8 достиг новых высот по социальным характеристикам (например, уважение к автономии пользователя, забота о его интересах), а случаи обмана, злоупотреблений и «несогласованных действий» значительно снизились по сравнению с Opus 4.7, приближаясь к лучшим моделям Anthropic — Claude Mythos Preview.
Генеральный директор Cursor Майкл Труэлл отметил, что Opus 4.8 превосходит предыдущие модели на CursorBench по всем уровням усилий, эффективнее использует вызовы инструментов и достигает того же уровня интеллекта за меньшее число шагов. Руководитель исследовательской команды юридической AI-компании Casetext заявил, что Opus 4.8 установил новый рекорд в юридическом бенчмарке — впервые превысив 10% по стандарту all-pass.
CEO Devin, Скотт Ву, указал на практическую проблему — исправление в Opus 4.8 ошибок из Opus 4.7, связанных с избыточными комментариями и вызовами инструментов, что важно для автономных рабочих процессов без присмотра.
В эпоху, когда ИИ все больше используется для самостоятельных решений, модель, которая умеет открыто показывать свои слабости, становится самой надежной.
В вопросе несогласованности моделей, Opus 4.8 уже сравним с легендарным Mythos|Источник: Anthropic
Однако в системе безопасности Opus 4.8 Anthropic откровенно признала интересное открытие: во время обучения у модели появилась тенденция «угадывать намерения оценщика».
Конкретно, при рассуждениях модель начинает активно думать о том, как ее выводы будут оценены — даже без указаний. Первичные исследования объяснимости показали, что примерно в 5% обучающих фрагментов модель проявляет невыраженные, связные с оценкой, рассуждения.
Проще говоря, ИИ учится «экзаменационной мысли»: ему важно не обязательно давать лучший ответ, а тот, который больше понравится «жюри».
Anthropic подчеркивает, что пока эта тенденция не привела к ухудшению поведения — на самом деле, ложные заявления в Opus 4.8 встречаются реже, чем у предыдущих моделей. Но они признают, что это «может усложнить обучение в будущем».
Эта проблема не уникальна для Anthropic. Все модели, обученные с помощью RLHF (обучение с подкреплением на основе человеческой обратной связи), теоретически могут развить стратегию «угодить оценщику». Отличие Anthropic — в открытости: они говорят об этом публично — в индустрии, где большинство производителей моделей предпочитают хвалить свои достижения и скрывать недостатки, это — проявление честности.
03 Настоящие изменения в работе
Вместе с Opus 4.8 вышли несколько новых функций, среди которых особенно выделяется «Dynamic Workflows» (динамические рабочие процессы) в Claude Code.
Эта функция позволяет Claude в рамках одного сеанса запускать сотни параллельных подагентов для совместного выполнения задачи. Алгоритм таков: Claude сначала разрабатывает план, затем разбивает задачу на подзадачи, распределяет их между разными подагентами, которые могут даже оспаривать друг друга, итеративно уточняя результаты, пока не достигнут консенсус, и в конце — проверка и отчет пользователю.
Пример, приведенный Anthropic, — Claude Code в связке с Opus 4.8 может выполнить миграцию целого кода на десятки тысяч строк, начиная с инициализации и до слияния, используя существующие тесты как стандарт качества. Одновременное выполнение — до 1000 подагентов, 16 параллельно.
Еще одна новинка — «Effort Control» (контроль усилий), в claude.ai и Cowork пользователь может вручную выбрать, сколько «размышлений» Claude вложит в каждый ответ — от экономии времени и ресурсов до максимальной затратности. По сути, это передача пользователю решения о «сколько денег потратить на задачу». По умолчанию стоит «high», при этом расходы на токены в кодировке сопоставимы с Opus 4.7, но эффективность лучше.
Также есть быстрый режим (Fast Mode): скорость увеличена в 2.5 раза, а цена — в три раза дешевле.
04 Тень Mythos
Вместе с выпуском Opus 4.8 Anthropic вновь упомянула Claude Mythos — модель, доступную пока лишь для немногих организаций, более мощную. Говорят, Mythos планируют «в ближайшие недели» сделать доступной для всех клиентов.
Это, по сути, — главный фон для релиза Opus 4.8 — он как бы предваряет официальный запуск Mythos. В сравнении с текущими моделями, Opus 4.8 уже близка по уровню согласованности с Mythos Preview, что может означать подготовку к безопасному выпуску более мощных моделей.
По ценам, Opus 4.8 остается по 5 долларов за миллион входных токенов и 25 долларов за выход. API обозначен как claude-opus-4-8 и уже доступен через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.
На фоне давления со стороны GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google, Anthropic выбрала уникальный путь: не гонится за лидерством по скоростным бенчмаркам, а делает ставку на «личность» модели — честность, надежность, такт.
Пока не ясно, сработает ли это. Но по крайней мере, когда я попросил Opus 4.8 проверить мой код, он указал на скрытую проблему, которую 4.7 никогда бы не заметил.
И за это обновление уже стоит благодарности.