中科曙光發了個“標配版”超節點，AI推理算力的未來形態？

Question

來源：鈦媒體OpenClaw突然爆火，既是AI Agent賽道的一次必然出圈，也是AI推理算力市場的一場壓力測試。在2026年中關村論壇上，中科曙發布了世界首個無線纜箱式超節點scaleX40，在此之前，超節點是動輒數百卡甚至千卡規模的龐然大物，包括中科曙光發布的scaleX640、英偉達的NVL72、華為的昇騰384等。這些頂級超節點專為超大規模模型訓練而生，性能強悍，但部署門檻極高，定制化機櫃、複雜的線纜連接、專業的運維團隊，動輒數千萬甚至上億的投資，讓它們注定只能服務於少數頭部玩家，例如互聯網巨頭或大型央國企等。在超節點的「反面」，是推理市場上傳統且主流的8卡GPU伺服器。這類產品部署靈活、成本可控，但在面對快速升級的AI推理算力需求時，性能顯得有些不足。「8卡機在當前來看已經遠遠落伍了，即便是把互聯規模擴展到16卡，仍然滿足不了模型推理服務發展的步伐。」中科曙光高級副總裁李斌表示，「支撐AI發展的算力基礎設施，逐漸從原來的『算力工廠』變成了『Token工廠』。算力系統的主要服務對象，已經從過去支撐模型訓練為主，轉變到現在以服務於推理為主。」在訓練時代，評價算力系統的核心指標是有多少算力；而在推理時代，更關鍵的指標變成了「能以多經濟的成本產出Token」。圖片來自AI生成AI需求分化，推理算力遠未滿足從當前市場需求來看，AI算力結構正在發生分層變化。根據行業機構預測，全球AI基礎設施投入仍將保持較快增長，但新增需求正逐步從超大規模集群，轉向企業級和行業應用場景。在這一趨勢下，算力配置的重點不再單純追求規模上限，而是更加關注性能、成本與靈活性的平衡。業內普遍共識，幾十卡規模已足夠滿足多數行業場景模型訓練、推理及開發測試的算力需求，這也是兼顧效率與投入的最大公約數區間。但是，AI應用層的需求演化太快，包括像OpenClaw為代表的AI Agent爆火，在改變傳統行業應用的同時，也對當下算力供給側帶來了系統重構的需求。第一是通信的瓶頸，現在MoE模型讓通信成為提升算力利用率的核心卡點，尤其是專家分布的不確定性，導致大量跨卡、跨機通信，直接擊穿了傳統8卡伺服器的算力架構。第二是顯存的瓶頸，上下文視窗持續擴展，OpenClaw所需的長上下文記憶能力，也讓大顯存、KV Cache的需求日益激增，這同樣是傳統8卡伺服器難以突破的局限。第三是算力利用率的瓶頸，算力利用率和推理落地成本近乎反比，傳統集群普遍存在算力利用率不足的問題，核心挑戰不是單純堆硬體，而是透過硬體架構創新，搭配配套系統工程、最佳化工程的協同發力，實現系統效能和有效算力的雙重提升。第四則是生態的瓶頸，國產算力生態體系複雜、廠商眾多、產業鏈漫長，產業協作難度不小，這就需要借助開放運算架構，打通晶片、模型、應用等全產業鏈上下游，打造開放易用、開箱即用、經濟普惠的算力底座。中科曙光希望用40卡的「標配」超節點回應市場。「40卡這個甜蜜區，是我們跟各種客戶調研摸索出來的。」中科曙光副總裁李柳表示，當前主流模型的參數規模和使用場景，32-40卡已經能夠覆蓋大多數行業需求，同時又能兼顧成本與性能的平衡。scaleX40單節點整合40張GPU，總算力超過28PFLOPS（FP8精度），HBM顯存容量超過5TB，訪存頻寬超過80TB/s。系統可靠性提升至99.99%。scaleX40的規模配置，既具備支持大模型訓練和推理的能力，又不會帶來過重的投入壓力；它向下可兼顧32卡，滿足中小規模訓練、推理和開發測試；向上，它可以透過擴展，組成更大規模集群。李斌算了一筆賬：「傳統5台8卡機器疊加各類成本的投入，與scaleX40基本相當，但scaleX40可以將訓練性能提升120%，推理性能最高提升至330%。」從DeepSeek到OpenClaw，新的算力轉折點「Token需要算力來做產出，但評價的維度和指標變得更多了。」李斌認為，「對於普通用戶，關注的是回應速度，問了一個問題，它能不能很快回饋回來；對於算力系統的營運者，要考慮能同時支撐多少用戶的並發存取，同時滿足基本的使用體驗。」智源研究院AI框架研發部門負責人敖玉龍也提出，「未來對算力供給方來說，關鍵指標是如何將算力轉換成有效的Token，而不是無效的Token。誰能把這個成本降下去，誰才是真正的贏家。」scaleX40的設計圍繞這些新需求展開。144G大顯存支持長上下文視窗，多級KV Cache快取機制滿足推理場景的大顯存需求，40卡高頻寬域的一级互聯將專家通信的out-to-out流量收攏在單個節點內。這些特性都是在控制成本的前提下，最大化單位算力的Token產出效率。無線纜箱式設計也是scaleX40一個很大的差異化。傳統超節點的一個核心痛點在於部署複雜度。以英偉達NVL72為例，其採用銅纜連接方案，機櫃之間需要大量的線纜互聯，不僅對機房環境要求苛刻，部署週期長，而且後期運維的故障率也居高不下。scaleX40的解法和英偉達於今年GTC大會公布的最新解決方案相似，透過匯流排技術實現Scale-up擴展，運算節點與交換節點採用無線纜正交架構直接對插。這一設計帶來了多重收益，首先，匯流排技術性能達到傳統NDR網路的10倍以上，支持記憶體語意和顯存統一編址；其次，一層組網將P2P單向時延降至百奈秒以內，與二層組網時延相比降低30%以上，故障率降低30%-50%。其次，scaleX40採用標準19英寸箱式設計，單機高度僅16U，可以直接放入主流機櫃，兼容現有資料中心環境，無需額外改造。「過去很多產品要嘛機櫃比較大，要嘛非標準化，要嘛機房改造非常複雜。」李柳說道，「scaleX40可以放在標準機櫃裡面，接標準機房的供電和冷卻設備，部署和使用門檻大大降低。」中國電信研究院智算網路技術負責人王子瀟也表示：「以超節點形態提供推理服務，性能比傳統單機8卡提升約2.6倍。超節點的『開箱即用』能力顯著增強，Scale-out網路的配置複雜度有數量級降低，對整個行業規模化應用非常有意義。」更深層來看，scaleX40的發佈也折射出國產算力生態的成熟。從晶片到系統軟體，從儲存到網路，從算子庫到通信庫，一條完整的產業鏈正在形成。正如李斌所言：「我們在整個國內計算AI生態裡，從晶片到系統軟體，到上層模型和應用，在做垂直的跨層協同，透過垂直方向的耦合和協同去發揮更好的效率。」當超節點開始以更簡單的方式被部署和使用，當千行百業都能以合理的成本獲得高端算力能力，中國AI的規模化應用，或許才真正邁出了關鍵一步。（本文作者 | 張帥，編輯 | 楊林）特別聲明：以上內容僅代表作者本人的觀點或立場，不代表新浪財經頭條的觀點或立場。如因作品內容、版權或其他問題需要與新浪財經頭條聯繫的，請於上述內容發佈後的30天內進行。																														                                                                    海量資訊、精準解讀，盡在新浪財經APP

中科曙光發了個“標配版”超節點，AI推理算力的未來形態？

熱門話題

Gate廣場四月發帖挑戰

加密市場回升

黃金白銀走高

川普同意停火兩週

WTI原油暴跌

熱門 Gate Fun

S

Story

oil

石油

ANDRO

ANDROMEDA

db

豆包

G

Gost face

置頂