中科曙光發了個“標配版”超節點,AI推理算力的未來形態?

robot
摘要生成中

來源:鈦媒體

OpenClaw突然爆火,既是AI Agent賽道的一次必然出圈,也是AI推理算力市場的一場壓力測試。

在2026年中關村論壇上,中科曙發布了世界首個無線纜箱式超節點scaleX40,在此之前,超節點是動輒數百卡甚至千卡規模的龐然大物,包括中科曙光發布的scaleX640、英偉達的NVL72、華為的昇騰384等。

這些頂級超節點專為超大規模模型訓練而生,性能強悍,但部署門檻極高,定制化機櫃、複雜的線纜連接、專業的運維團隊,動輒數千萬甚至上億的投資,讓它們注定只能服務於少數頭部玩家,例如互聯網巨頭或大型央國企等。

在超節點的「反面」,是推理市場上傳統且主流的8卡GPU伺服器。這類產品部署靈活、成本可控,但在面對快速升級的AI推理算力需求時,性能顯得有些不足。

「8卡機在當前來看已經遠遠落伍了,即便是把互聯規模擴展到16卡,仍然滿足不了模型推理服務發展的步伐。」中科曙光高級副總裁李斌表示,「支撐AI發展的算力基礎設施,逐漸從原來的『算力工廠』變成了『Token工廠』。算力系統的主要服務對象,已經從過去支撐模型訓練為主,轉變到現在以服務於推理為主。」

在訓練時代,評價算力系統的核心指標是有多少算力;而在推理時代,更關鍵的指標變成了「能以多經濟的成本產出Token」。

圖片來自AI生成

AI需求分化,推理算力遠未滿足

從當前市場需求來看,AI算力結構正在發生分層變化。根據行業機構預測,全球AI基礎設施投入仍將保持較快增長,但新增需求正逐步從超大規模集群,轉向企業級和行業應用場景。

在這一趨勢下,算力配置的重點不再單純追求規模上限,而是更加關注性能、成本與靈活性的平衡。業內普遍共識,幾十卡規模已足夠滿足多數行業場景模型訓練、推理及開發測試的算力需求,這也是兼顧效率與投入的最大公約數區間。

但是,AI應用層的需求演化太快,包括像OpenClaw為代表的AI Agent爆火,在改變傳統行業應用的同時,也對當下算力供給側帶來了系統重構的需求。

第一是通信的瓶頸,現在MoE模型讓通信成為提升算力利用率的核心卡點,尤其是專家分布的不確定性,導致大量跨卡、跨機通信,直接擊穿了傳統8卡伺服器的算力架構。

第二是顯存的瓶頸,上下文視窗持續擴展,OpenClaw所需的長上下文記憶能力,也讓大顯存、KV Cache的需求日益激增,這同樣是傳統8卡伺服器難以突破的局限。

第三是算力利用率的瓶頸,算力利用率和推理落地成本近乎反比,傳統集群普遍存在算力利用率不足的問題,核心挑戰不是單純堆硬體,而是透過硬體架構創新,搭配配套系統工程、最佳化工程的協同發力,實現系統效能和有效算力的雙重提升。

第四則是生態的瓶頸,國產算力生態體系複雜、廠商眾多、產業鏈漫長,產業協作難度不小,這就需要借助開放運算架構,打通晶片、模型、應用等全產業鏈上下游,打造開放易用、開箱即用、經濟普惠的算力底座。

中科曙光希望用40卡的「標配」超節點回應市場。「40卡這個甜蜜區,是我們跟各種客戶調研摸索出來的。」中科曙光副總裁李柳表示,當前主流模型的參數規模和使用場景,32-40卡已經能夠覆蓋大多數行業需求,同時又能兼顧成本與性能的平衡。

scaleX40單節點整合40張GPU,總算力超過28PFLOPS(FP8精度),HBM顯存容量超過5TB,訪存頻寬超過80TB/s。系統可靠性提升至99.99%。

scaleX40的規模配置,既具備支持大模型訓練和推理的能力,又不會帶來過重的投入壓力;它向下可兼顧32卡,滿足中小規模訓練、推理和開發測試;向上,它可以透過擴展,組成更大規模集群。

李斌算了一筆賬:「傳統5台8卡機器疊加各類成本的投入,與scaleX40基本相當,但scaleX40可以將訓練性能提升120%,推理性能最高提升至330%。」

從DeepSeek到OpenClaw,新的算力轉折點

「Token需要算力來做產出,但評價的維度和指標變得更多了。」李斌認為,「對於普通用戶,關注的是回應速度,問了一個問題,它能不能很快回饋回來;對於算力系統的營運者,要考慮能同時支撐多少用戶的並發存取,同時滿足基本的使用體驗。」

智源研究院AI框架研發部門負責人敖玉龍也提出,「未來對算力供給方來說,關鍵指標是如何將算力轉換成有效的Token,而不是無效的Token。誰能把這個成本降下去,誰才是真正的贏家。」

scaleX40的設計圍繞這些新需求展開。144G大顯存支持長上下文視窗,多級KV Cache快取機制滿足推理場景的大顯存需求,40卡高頻寬域的一级互聯將專家通信的out-to-out流量收攏在單個節點內。這些特性都是在控制成本的前提下,最大化單位算力的Token產出效率。

無線纜箱式設計也是scaleX40一個很大的差異化。傳統超節點的一個核心痛點在於部署複雜度。以英偉達NVL72為例,其採用銅纜連接方案,機櫃之間需要大量的線纜互聯,不僅對機房環境要求苛刻,部署週期長,而且後期運維的故障率也居高不下。

scaleX40的解法和英偉達於今年GTC大會公布的最新解決方案相似,透過匯流排技術實現Scale-up擴展,運算節點與交換節點採用無線纜正交架構直接對插。

這一設計帶來了多重收益,首先,匯流排技術性能達到傳統NDR網路的10倍以上,支持記憶體語意和顯存統一編址;其次,一層組網將P2P單向時延降至百奈秒以內,與二層組網時延相比降低30%以上,故障率降低30%-50%。

其次,scaleX40採用標準19英寸箱式設計,單機高度僅16U,可以直接放入主流機櫃,兼容現有資料中心環境,無需額外改造。

「過去很多產品要嘛機櫃比較大,要嘛非標準化,要嘛機房改造非常複雜。」李柳說道,「scaleX40可以放在標準機櫃裡面,接標準機房的供電和冷卻設備,部署和使用門檻大大降低。」

中國電信研究院智算網路技術負責人王子瀟也表示:「以超節點形態提供推理服務,性能比傳統單機8卡提升約2.6倍。超節點的『開箱即用』能力顯著增強,Scale-out網路的配置複雜度有數量級降低,對整個行業規模化應用非常有意義。」

更深層來看,scaleX40的發佈也折射出國產算力生態的成熟。從晶片到系統軟體,從儲存到網路,從算子庫到通信庫,一條完整的產業鏈正在形成。正如李斌所言:「我們在整個國內計算AI生態裡,從晶片到系統軟體,到上層模型和應用,在做垂直的跨層協同,透過垂直方向的耦合和協同去發揮更好的效率。」

當超節點開始以更簡單的方式被部署和使用,當千行百業都能以合理的成本獲得高端算力能力,中國AI的規模化應用,或許才真正邁出了關鍵一步。(本文作者 | 張帥,編輯 | 楊林)

特別聲明:以上內容僅代表作者本人的觀點或立場,不代表新浪財經頭條的觀點或立場。如因作品內容、版權或其他問題需要與新浪財經頭條聯繫的,請於上述內容發佈後的30天內進行。

海量資訊、精準解讀,盡在新浪財經APP

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言