PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

ニュース速報メッセージ:4月23日 — Perplexityの研究チームが、Web検索エージェント向けのポストトレーニング手法の詳細を説明する技術記事を公開しました。このアプローチは、2つのオープンソースのQwen3.5モデル (Qwen3.5-122B-A10B と Qwen3.5-397B-A17B) を使用し、2段階のパイプラインを採用します。すなわち、命令追従と言語の一貫性を確立するための教師あり微調整 (SFT) の後に、検索精度とツール使用の効率を最適化するためのオンライン強化学習 (RL) を行います。

RLフェーズでは、GRPOアルゴリズムを2つのデータソースとともに活用します。1つは、内部のシードクエリから構築された独自のマルチホップ検証可能な質問-回答データセットで、推論の2〜4ホップと、複数ソルバによる検証を必要とします。もう1つは、配備要件を客観的に検査可能な原子的条件へ変換してSFTの振る舞い劣化を防ぐ、ルーブリックに基づく汎用会話データです。

報酬設計では、ゲート付き集約を採用します——ベースラインの正しさが達成された場合にのみ、選好スコアが寄与します (question-answer match または すべてのルーブリック基準が満たされた場合)。これにより、高い選好信号が事実誤りを覆い隠すことを防ぎます。効率ペナルティは同一グループ内のアンカーリングを用い、同じグループにおける正答のベースラインを超えて、ツール呼び出しや生成長に対してなめらかなペナルティを適用します。

評価では、Qwen3.5-397B-SFT-RLが検索ベンチマーク全体で業界最高水準の性能を達成しています。FRAMESでは、単一ツール呼び出しで57.3%の精度を実現し、GPT-5.4を5.7パーセントポイント上回ります。また、Claude Sonnet 4.6を4.7パーセントポイント上回ります。中程度の予算 (4回のツール呼び出し) では、1クエリあたり$0.02で73.9%の精度を達成し、GPT-5.4の1クエリあたり$0.085での67.8%の精度、Sonnet 4.6の1クエリあたり$0.153での62.4%の精度と比較しています。コスト数値は各提供元の公開API料金に基づき、キャッシュの最適化は除外されています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

GoogleのCEO:2026年の設備投資は1850億、AIエージェント時代の投資を強化

GoogleのCEOであるスンダー・ピチャイは、4月22日にラスベガスで開催されたGoogle Cloud Nextで、Googleが2026年に1,750億〜1,850億ドルの資本支出を行い、自律型人工知能エージェント(AI Agent)の構築に必要なインフラを整備する計画であると発表した。これは、2022年の310億ドルから増加している。

MarketWhisper36分前

Google Jules が新版候補者リストを公開し、エンドツーエンドの製品開発プラットフォームとして再定義します

Google Julesチームの公式発表によると、4月23日の公告で、Julesのプロダクトの位置づけは「非同期コーディング・エージェント」から「エンドツーエンドのエージェント型プロダクト開発プラットフォーム」へとアップグレードされました。新バージョンは、完全なプロダクトのコンテキストを読み取り、自律的に次に構築する方向性を判断し、そしてPRを提出できるとのことです。公式は同時に、新バージョンの候補者名簿の募集開始も発表しました。

MarketWhisper41分前

Google Jules、エンドツーエンドのエージェント型プロダクト開発プラットフォームとして再ブランディング、新バージョンのウェイリストを開設

Gate News メッセージ、4月23日 — GoogleのJulesチームは、製品の新バージョンに関するウェイリストの開設を発表し、Julesを非同期のコーディングエージェントからエンドツーエンドのエージェント型プロダクト開発プラットフォームへと再配置しました。公式の説明によれば、アップグレードされたプラットフォームはエンティ

GateNews1時間前

OpenAI CodexチームがOpenClawの認証バグを修正、エージェント挙動を大幅に改善

OpenClawはサイレントな認証フォールバックを修正するためにPiからCodexハーネスへ切り替え、ブリッジとフォールバックに対処する2つのPRを投入しました。修正後、エージェントは浅いハートビートのポーリングから完全な作業ループへ移行し、進捗が可能になりました。 概要:OpenClawのCodexハーネス最適化は、CodexをOpenAIモデルで使用した際にPiハーネスへサイレントにフォールバックする原因となった重要な認証の不具合に対処しました。2つのプルリクエストが認証ブリッジを修正し、サイレントなフォールバックを防ぎ、実行時アダプタを変更します。その結果、エージェントの挙動は浅いハートビートのポーリングから、コンテキストを読み取り、タスクを分析し、リポジトリを編集し、進捗を検証する完全な作業ループへと進化し、ハートビート間の継続性と可視性が向上します。

GateNews3時間前

OpenAI が ChatGPT Workspace Agents を公開:Codex による駆動、チーム共有、Slack 連携

OpenAIは4月22日にChatGPT Business/Enterprise/Edu/TeachersでWorkspace Agentsを提供開始し、Codexを駆動に、クラウドでの長時間稼働、チームでの共有、オフライン実行に対応します。Slack上で主導的に応答し、請求書発行、複数ステップのワークフローの実行ができ、スケジューリングにも対応しています。研究プレビューは5月6日まで無料で、その後はcredit-basedでの課金となり、価格は未発表です。Google Gemini Enterprise Agent Platform、Anthropic Claude Coworkと同じ土俵で競合しており、3社はいずれも企業向けのエージェントに注力していますが、位置付けはそれぞれ異なります。

ChainNewsAbmedia4時間前
コメント
0/400
コメントなし