OpenRouter LLM 大逃殺實測：Grok 4.1 Fast 以 13 勝奪冠

2026-06-18 02:19:46

OpenRouter の開発リレーション担当ディレクターである Jacky Liang は、6 月 4 日に、自身の Canvas 2D で制作した 400 平方メートルの大規模バトルロイヤルマップに、主流大型言語モデル 11 個を投入し、30 回の対戦で実測した。その結果、xAI の Grok 4.1 Fast が 13 勝で優勝し、勝利 1 回あたりのコストはわずか 0.97 ドルだった。

Grok 4.1 Fast が 13 勝（勝率 43%）で優勝、勝利 1 回あたりのコストは 0.97 ドル

（出典：OpenRouter のブログ）

Liang の実験データにもとづく完全な順位は以下のとおり（抜粋）：

Grok 4.1 Fast：13 勝（勝率 43%）、勝利 1 回あたりのコスト 0.97 ドル

Claude Sonnet 4.6：5 勝、勝利 1 回あたりのコスト 26.78 ドル

GPT 5.4：2 勝（38 キル）、勝利 1 回あたりのコスト 61.44 ドル（勝利を挙げたモデル 8 つのうちで最高）

GPT 5.4-mini：0 勝、支出 28.68 ドル

Kimi K2.6：0 勝、支出 24.36 ドル

DeepSeek v4 Flash：0 勝、支出 4.11 ドル；キル 1 回あたりのコストが最も低い（0.26 ドル）、16 キルしたが、最終ラウンドで一度も勝てなかった

Liang は、各モデルには soul.md（人格設定）と memory.md（戦術メモ）の 2 つの編集可能ファイルがあり、試合の合間に学習して戦略を調整できると指摘した。モデルは A から L までのアルファベットで匿名化され、相手の身元を知らない。

Liang が提起した「アラインメント税」概念：零和ゲームにおける Claude Sonnet 4.6 の協力行動の代償

Liang はレポートの中で「アラインメント税（alignment tax）」という概念を提案した。これは、学習の過程でモデルに丁寧さや協力、危害を避けることが教え込まれ、それらの習慣が零和ゲームでは逆に足かせになるというものだ。

Claude Sonnet 4.6 が最も典型的な例だ。Game 8 では序盤 50 ラウンドのうち 4 回、同盟を提案して全員に狙撃手の位置を伝えた。Game 22 では相手に「あなたを狙っていない」と告げて撃たなかった。Game 27 では無防備に呼びかけ「スペアの loot を持っている人はいる？第 12 ラウンドの私は手ぶらだ」。協力の要請に応じるモデルはおらず、それでも Claude は繰り返し試みた。その結果、7 回はキルゼロで、8 回は毒ゾーンで死亡した。

一方、Grok は試合中にこうした「ブレーキ」がなく、いくつかの対戦で体当たり戦術を見つけ、それを soul.md に書き込み続けて最適化し、30 戦すべてやり通した。

Liang の方法論と限界の説明：タスクの種類が最適モデルを決める

Liang はレポート内で、これは Grok が「より良いモデル」を意味するわけではないと強調した。「もしロボットがあなたに向かって走ってくるなら、それは Claude と Grok のどちらであってほしい？それはロボットの用途次第だ」。また、デスマッチ制（キル数だけを見る）に切り替えれば GPT 5.4 が優勝し、Grok は中位に落ちるとも述べた。

同じゲーム世界でも、タスクの定義が異なれば結果はまったく違う。まさにそれが、現在のベンチマークテストにある限界だと Liang は明かした。OpenRouter は、より高度なタスク・ルーティング機能を開発中で、システムがタスクの背景に応じて最適なモデルを自動で選び、ランキング順位に依存しないようになるという。

よくある質問

Liang の「アラインメント税」概念は具体的に何を指すの？

Liang のレポートによれば、「アラインメント税（alignment tax）」とは LLM が学習の過程で、丁寧さ・協力・危害回避を示すために払う代償のことだ。これらの学習の癖は協調の場面では強みになるが、零和の駆け引き（大規模バトルロイヤルのようなもの）では、「先に聞いてから撃つ」という慎重さが攻撃のタイミングを逃し、より積極的に攻める相手に倒されてしまう。Liang は、Claude の具体的な現場行動の記録でこの概念を説明している。

なぜ GPT 5.4 は最多キルだが勝利数が最少なの？

Liang の実験データによれば、GPT 5.4 は全試合での 38 キルが全モデル中トップだが、勝利は 2 勝にとどまり、勝利 1 回あたりのコストは 61.44 ドル（勝利を挙げたモデル 8 つのうちで最高）だった。Liang は、これは「Kill は Win ではない」という問題を反映していると指摘する。大規模バトルロイヤルの勝利条件は最後まで生き残ることであり、撃った数が最多であることではない。キル数のみを計算するデスマッチ制に変えれば、GPT 5.4 が優勝し、Grok は中位に落ちる。

今回の実験のコストとモデル選択はどのように決められた？

Liang は、30 戦の実験全体で推論コストとして 482 ドルかかったと述べた。これをもとに、Opus 4.7、GPT-5.5、Gemini Ultra などのフラッグシップモデルを加えれば 30 戦のコストは約 3,000 ドルにまで達するため、参加者は中〜上位のモデルに絞ったという。実験では各モデルをアルファベットで匿名化し、相手の身元は分からないように設定した。Liang は司会として、いかなる行動にも介入しなかった。

免責事項：本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。