
Alibaba の「千問」(Qwen)シリーズは今週、Qwen3.7-Plus モデルを公開し、入力の料金は 0.40 米ドル/百万 token、出力は 1.60 米ドル/百万 token、合計 2.00 米ドルで、Qwen3.7-Max に比べて値下げ幅は最大 80% です。キャッシュ入力の価格は 0.04 米ドル/百万 token まで引き下げられ、想定シナリオは高頻度で反復性のあるタスクです。
Qwen3.7-Plus 確認された価格:各課金モードの料金率
Alibaba 公式が公開した価格情報によると:
一般の入力:0.40 米ドル/百万 token
一般の出力:1.60 米ドル/百万 token
合計(入力+出力):2.00 米ドル
キャッシュ入力:0.04 米ドル/百万 token(同じコードベースまたは企業の UI を繰り返し読み取る agent のシナリオに適用)
比較対象:Qwen3.7-Max は入力 2.50 米ドル、出力 7.50 米ドル、合計 10.00 米ドル。中国の同業競合である MiniMax-M3 は期間限定で合計 1.50 米ドル。Qwen3.7-Plus の価格はその水準にかなり寄せています。
公式のベンチマークテスト数値(公式による自己評価)
以下は Alibaba 公式が公開した Qwen3.7-Plus のベンチマークテスト数値で、いずれも自己評価データです:
Terminal Bench 2.0-Terminus:70.3(DeepSeek-V4-Pro Max は 67.9、Gemini-3.1 Pro は 63.5)
ScreenSpot Pro(PC ビジョンとインターフェース理解):79.0(GPT-5.4 xhigh は 67.4、Claude-Opus-4.6 は 49.5)
注目すべき点として、Alibaba の公式ドキュメントでも、Qwen3.7-Plus の全体的な表現は依然として多くの先行する米国のクローズドモデルを下回っていると説明されており、上記の数値は特定タスクにおける一点比較であって、全面的な性能を示すものではありません。
クローズドのデプロイによる確認への影響:コンプライアンス上の考慮と適用制限
Qwen3.7-Plus はダウンロード可能なオープンモデルの重みを提供せず、すべての API 呼び出しは Alibaba Cloud の国際ノード経由で処理されます。データは利用者自身のサーバー以外で動きます。この構成に基づき、以下のような状況では明確なコンプライアンス上の障壁があります:
データの主権または法規制の制約を受ける産業:医療(HIPAA、GDPR)、国防、政府機関。外部 API のルーティングがコンプライアンス要件を満たすかを評価する必要があります
社内ネットワークで隔離されたデプロイのシナリオ:完全に隔離されたローカル環境に展開できない
一方で、クローズド API モデルの利点は、自社で多 GPU クラスタ(例:Nvidia H100)のハードウェア調達と運用を自前で行う必要がない点です。また、OpenAI と互換性のある形式により、既存インフラの改修コストを最小化できます。
よくある質問
Qwen3.7-Plus のキャッシュ料金 0.04 米ドル/百万 token はどのような場面に適用されますか?
キャッシュ料金は、agent が同じ入力を何度も読み取るような場面に適用されます。たとえば、同じコードベースへの継続的なアクセス、固定の企業 UI テンプレート、または長時間保持されるシステムプロンプトなどです。高頻度で反復性のあるタスクを含む大規模なワークフローでは、キャッシュ機構によって全体の API コストを大幅に下げられます。Alibaba はキャッシュヒット率に関する具体的な保証や、使用制限の詳細は公表していません。
Qwen3.7-Plus と、これまでの Qwen のオープンライセンス版との主な違いは何ですか?
これまでの Qwen シリーズは Apache 2.0 のライセンスで公開され、ダウンロード可能なモデル重みが提供されていました。誰でもローカルでデプロイし、微調整し、自社システムに統合できます。Qwen3.7-Plus は、Alibaba Cloud の API 経由でのみ提供され、モデル重みは公開されません。これは、ローカルや隔離されたネットワーク内にデプロイできず、すべての利用が Alibaba Cloud の外部インフラに依存することを意味します。
Qwen3.7-Plus の公式ベンチマークテスト数値の信頼性はどのように解釈すべきですか?
Qwen3.7-Plus の公式説明では、Terminal Bench や ScreenSpot Pro などのスコアリングが Alibaba 公式による自己評価数値であり、全体としての性能は多くの先行する米国のクローズドモデルを依然として下回っていることが明確に述べられています。ベンチマークの数値は、特定のタスクにおける一点の性能を反映しているだけで、実際の本番環境でのエンドツーエンドの遅延、安定性、または全面的なパフォーマンスを示すものではありません。