OpenRouter 融合 API 以一半成本達到與 Claude Fable 5 相當的效能

DEEPSEEK-4.31%

OpenRouter 於 6 月 12 日推出 Fusion,這是一種伺服器端 API,可將提示(prompt)並行分配給多個 AI 模型,接著使用「judge 模型」與「synthesizer」將回覆合併成一致的答案。該公司宣稱,這套系統能在約一半成本下達到 Claude Fable 5 的效能,依據使用 Perplexity 的 DRACO 基準測試結果:預算(budget)面板中的模型得分為 64.7%,而 Fable 5 為 65.3%。此次推出發生在 Anthropic 上週因美國的出口管制指令而暫停 Fable 5 與 Mythos 5 之後不久;該指令引用了一項具爭議的越獄(jailbreak)發現。OpenRouter 將 Fusion 定位為替代方案,提供「以一半價格帶來 Fable 等級的智慧」。

OpenRouter Fusion 透過多模型面板架構處理提示

當使用者將提示傳送給 Fusion 時,OpenRouter 會並行分配給一組模型面板,每個模型都會收到網頁搜尋與 bash 工具。接著,judge 模型會從每個回覆中提取共識要點、矛盾之處與盲點。完成分析階段後,synthesizer(預設為 Claude Opus 4.8)會根據該分析撰寫最終答案。整個流程都在伺服器端執行。使用者可以將模型字串切換為「openrouter/fusion」以使用預設面板、加入 fusion 工具讓自家模型能有選擇地呼叫它,或在 Fusion 聊天室中不寫程式碼就建立自訂面板。

預算 AI 面板在 DRACO 基準上以 64.7% 對戰 Fable 5 的 65.3%

OpenRouter 在 DRACO 上測試 Fusion;DRACO 是 Perplexity 的基準,建立自真實使用者的深度研究(deep research)請求。Fable 5 搭配 OpenAI 的 GPT-5.5,並由 Opus 進行合成,位居圖表首位,達到 69%。單獨的 Fable 得分為 65.3%,但其 100 個任務中有 7 個從未執行,因為自身的內容過濾器擋下了它們。由 Gemini 3 Flash 加上開源中文模型 Kimi K2.6 與 DeepSeek V4 Pro 形成的預算組合,經 Opus 融合與合成後達到 64.7%——超越單獨 GPT-5.5(60%)與單獨 Opus 4.8(58.8%),且落在接近 Fable 的一個百分點範圍內(成本約為一半)。將 Opus 4.8 與其自身的另一個獨立實例搭配後得分為 65.5%,比單獨 Opus 高出 6.7 個百分點。OpenRouter 表示,大約四分之三的提升來自合成步驟本身,其餘則來自真正的模型多樣性。

OpenRouter 還披露,讓面板擁有即時網頁存取可讓模型在搜尋結果中呈現 DRACO 自身的評分規則,這種「污染風險」該公司稱其為巧合而非刻意。修正只需要一行設定即可把基準的託管網域排除在搜尋工具之外,而所有已發布的數字都反映了這次清理後的執行結果。

Anthropic 在美國出口管制指令後暫停 Fable 5 與 Mythos 5

上週在發布 Fable 5 與 Mythos 5 後不久,一則美國出口管制指令迫使 Anthropic 對全球所有外國國民暫停使用這些模型;該指令引用一項具爭議的越獄(jailbreak)發現。OpenRouter 於 6 月 13 日在 X 上宣布 Fusion,並將其定位為替代方案,承諾「以一半價格提供 Fable 等級的智慧」。

OpenRouter 指出 Fusion 在程式碼與長期任務上的限制

OpenRouter 表示 Fusion 並非完整的 Fable 取代。DRACO 會跳過長期(long-horizon)工作;而據報導,Fable 在這類任務上仍處於領先。就程式碼(coding)而言,Fusion 僅作為工具供程式碼模型有選擇地呼叫,而非整體性取代。這次上線的討論串在情感追蹤上大致呈現二比一的正面分布。AI 研究者 Andrew Trask 認為這「比看起來大得多」,並主張前沿(frontier)實驗室不會再單獨擁有前沿。持懷疑態度者則指出糟糕的程式碼結果、較差的工具呼叫,以及由於 Fable 5 已不再可用而缺乏可比對結果的透明度。Fusion 全程在透過 OpenRouter 自家基礎設施路由的模型上運行,因此它並未在源頭上解決出口管制的問題。

FAQ

OpenRouter 在 6 月 12 日推出了什麼?

OpenRouter 於 6 月 12 日推出 Fusion,這是一種伺服器端 API,可將提示(prompt)並行分配給多個 AI 模型,接著使用 judge 模型與 synthesizer 將回覆合併成一致的答案。

Fusion 的預算面板在 DRACO 基準上的表現如何?相較 Claude Fable 5 呢?

在 Perplexity 的 DRACO 基準上,Fusion 的預算面板結合 Gemini 3 Flash、Kimi K2.6 與 DeepSeek V4 Pro,得分為 64.7%:其得分落在單獨 Fable 5 的 65.3% 的一個百分點內,且成本約為一半。

為什麼 Anthropic 暫停 Claude Fable 5 與 Mythos 5?

Anthropuic 上週因一則美國出口管制指令而暫停 Fable 5 與 Mythos 5;該指令引用一項具爭議的越獄(jailbreak)發現,影響全球所有外國國民的存取。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆