Anthropicは最近、内部モデルのアクティベーションを人間が読めるテキストへ翻訳するツール「Natural Language Autoencoders(NLA)」をリリースし、コードとモデルの重みをGitHubでオープンソース化しました。Sparse Autoencodersなどの既存ツールが判読しにくい特徴を出力するのに対し、NLAはデュアルモデルの枠組みによって自然言語の説明を直接生成します。具体的には、一方のモデルがアクティベーションをテキストへ変換し、もう一方のモデルがテキストからアクティベーションを再構成しようとして、強化学習によって反復的に精度を高めます。
安全性のテストでは、NLAが隠れたモデルの推論を明らかにしました。Claudeは敵対的なシナリオの16%でテストされることへの疑念を表明し、ベンチマークタスクの26%では「試験への意識」が見られたのに対し、通常の会話では1%未満でした。監査の実験では、NLAは注入された欺瞞的なモデル行動の検出率を3%未満から12〜15%へと引き上げました。これにより、監査担当者は学習データにアクセスできなくても、隠れた目的を特定できるようになります。このツールは現在、Claude Mythos PreviewおよびOpus 4.6の安全性監査に展開されています。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
DeepSeekは過去最高額となる資金調達ラウンドで最大500億人民元を調達する計画、V4.1モデルは6月に登場予定
PANewsによると、5月8日、DeepSeekは第1回の資金調達ラウンドで最大500億人民元を調達する計画であり、これは中国のAI企業による単一案件としては最大規模の資金調達となる見通しです。創業者兼CEOの梁文峰(Liang Wenfeng)は最大額を拠出すると予想されています。同社は大規模言語モデルの…
GateNews9分前
Sportixは、Coinvestor VenturesおよびAnimoca Brandsが主導した320万ドルの資金調達ラウンドを完了しました
ChainCatcherによると、スポーツAIインフラプラットフォームのSportixは、320万ドルの資金調達ラウンドを完了しました。このラウンドはCoinvestor Venturesが主導し、Animoca Brands、Becker Ventures、X21 Digital、Alpha Capitalが参加しました。
Sportixは、この資金をAIの推進に活用すると述べました
GateNews10分前
ロボットの学習データのコストは2024年以降65%下落しており、1時間あたり340ドルから118ドルへと減少しています
Cointelegraphによると、ロボットの訓練データのコストは2024年以降65%低下し、2026年時点では1時間あたり$340から$118へと下がっています。
GateNews58分前
中国モバイルは5月8日に、8社のパートナーとトークン申請エコシステム・アライアンスを発表
PANewsによると、5月8日、中国モバイルはAlibaba Cloud、Volcano Engine、Huawei Cloudを含む8社と「トークンアプリケーション・エコシステム・アライアンス」を設立したと発表した。この同盟は、MoMAモデル集約プラットフォームを活用して、国内のAI m向けに統一されたサービス・ゲートウェイを構築する。
GateNews1時間前
中国は5月8日に、2027年および2030年の目標を掲げたAIエネルギー行動計画を発表
PANewsによると、5月8日、中国の国家発展改革委員会、国家能源局、工業情報化部、国家データ管理局が共同で「行動」を発表した。
GateNews1時間前
中国の3機関が、19の典型的なアプリケーションシナリオを伴うAIエージェントに関するガイダンスを発表
PANewsによると、中国の国家インターネット情報弁公室、国家発展改革委員会、工業情報化部が本日(5月8日)共同でAIエージェントに関するガイダンスを公表した。文書ではAIエージェントを自律的な
GateNews1時間前