Anthropic выпустила естественноязыковые автоэнкодеры, чтобы расшифровывать ход рассуждений ИИ-моделей, и открыла исходный код

Anthropic недавно выпустила Natural Language Autoencoders (NLA) — инструмент, который переводит внутренние активации модели в человекочитаемый текст; код и веса моделей открыты на GitHub. В отличие от существующих инструментов вроде Sparse Autoencoders, которые выдают малопонятные признаки, NLA напрямую генерирует описания на естественном языке через двухмодельную схему: одна модель преобразует активации в текст, а другая пытается восстановить активации по тексту, итеративно повышая точность с помощью обучения с подкреплением.

В тестах на безопасность NLA обнаружила скрытые рассуждения модели: Claude сомневался в том, что его тестируют в 16% от обмана враждебных сценариях, и проявлял «осведомлённость об экзамене» в 26% задач бенчмарка — тогда как в обычных разговорах этот показатель был ниже 1%. В аудиторских экспериментах NLA увеличила скорость обнаружения внедрённого обманного поведения модели с менее чем 3% до 12-15%, позволяя аудиторам выявлять скрытые цели без доступа к данным обучения. В настоящее время инструмент используется в проверках безопасности Claude Mythos Preview и Opus 4.6.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Tessera Labs завершила раунд финансирования $60M под руководством a16z

Согласно Odaily, стартап по автоматизации на базе ИИ Tessera Labs объявил о завершении раунда финансирования на 60 миллионов долларов, который возглавила Andreessen Horowitz (a16z), при участии Foundation Capital, Myriad Venture Partners и Osage University Partners. Платформа компании, созданная для ИИ, автоматизирует процессы на уровне предприятий

GateNews12м назад

Злоумышленники внедрили 575 вредоносных навыков на Hugging Face и ClawHub с помощью 13 аккаунтов

Согласно CISO Mist Security @im23pds, злоумышленники недавно взломали 13 аккаунтов, чтобы внедрить 575 вредоносных Skills в Hugging Face и ClawHub (OpenClaw), как сообщалось на платформе X.

GateNews12м назад

DeepSeek планирует привлечь до 50 млрд юаней в рекордном раунде финансирования, модель V4.1 выйдет в июне

8 мая PANews сообщает, что DeepSeek планирует привлечь до 50 миллиардов юаней в первом раунде финансирования, что станет крупнейшим единичным сбором средств китайской AI-компании. Основатель и генеральный директор Лян Вэньфэн, как ожидается, внесёт максимальную сумму. Компания планирует ускорить разработку больших языковых моделей

GateNews23м назад

Sportix завершает раунд финансирования на 3,2 млн долларов под руководством Coinvestor Ventures и при участии Animoca Brands

Платформа спортивной инфраструктуры для ИИ Sportix завершила раунд финансирования на 3,2 миллиона долларов. Раунд был организован Coinvestor Ventures, в нём также приняли участие Animoca Brands, Becker Ventures, X21 Digital и Alpha Capital. Sportix заявила, что использует средства для развития своей ИИ

GateNews25м назад

Затраты на обучение роботов снизились на 65% с 2024 года — с $340 до $118 в час

По данным Cointelegraph, стоимость обучающих данных для роботов снизилась на 65% с 2024 года: с 340 долларов в час до 118 долларов в час по состоянию на 2026 год.

GateNews1ч назад

China Mobile объявляет о токен-экосистемном альянсе с 8 партнёрами 8 мая

Согласно PANews, 8 мая China Mobile объявила о создании альянса Token Application Ecosystem Alliance с 8 партнёрами, включая Alibaba Cloud, Volcano Engine и Huawei Cloud. Альянс использует платформу агрегации MoMA для создания единого сервисного шлюза для внутреннего AI m

GateNews1ч назад
комментарий
0/400
Нет комментариев