9月8日消息,近日,中科曙光正式發布了國內首個基于AI計算開放架構設計的曙光AI超集群系統。這一系統以GPU為核心,實現了算力、存儲、網絡、供電、冷卻、管理與軟件的一體化緊耦合設計,旨在為萬億參數大模型訓練、行業模型微調、多模態開發及AI4S等場景提供底層算力支持。其最大亮點在于支持百萬卡級別的集群擴展能力,并強調硬件與軟件生態的開放性,引發行業對算力壟斷格局可能被打破的討論。
從技術架構來看,曙光AI超集群表現出顯著性能優勢。單機柜支持96張GPU卡,總算力達百P級,內存帶寬超過180TB/s,支持多精度與混合精度運算。在實際應用中,千卡集群的大模型訓練推理性能達業界主流水平的2.3倍,開發效率提升4倍,人天投入減少70%。其通過存算傳協同技術將GPU計算效率提升55%,并采用冷板液冷與394項節能設計,使PUE低于1.12,在能效方面也處于行業領先水平。
更重要的是,該系統在可靠性與開放性上實現雙重突破。121項可靠性設計使平均無故障時間提高2.1倍,平均故障修復時間降低47%,支持超30天長穩運行與百萬級部件故障的秒級隔離。而開放架構則支持多品牌AI加速卡,兼容CUDA等主流軟件生態,不僅降低用戶的硬件采購與軟件開發成本,也有助于保護已有投資,避免被單一技術路線綁定。
從行業現狀來看,全球AI算力市場目前仍由少數企業主導,尤其在高端加速卡與底層軟件生態方面存在較高的技術壁壘和商業壟斷。曙光AI超集群所倡導的開放路徑,在一定程度上可促進硬件異構兼容與軟件生態互通,為更多企業提供替代方案,有助于構建多元化的算力供應體系。
然而,能否真正“打破壟斷”,仍需客觀看待其面臨的挑戰。一方面,現有主流生態已形成較強的用戶黏性與開發生態,新架構需在工具鏈、性能調優、社區支持等方面持續投入;另一方面,開放架構雖然降低準入門檻,但如何在規模部署中保持穩定性與兼容性,仍需經過大規模應用驗證。
總體而言,曙光AI超集群的發布是中國在高端AI算力基礎設施領域的一次重要進展,其開放架構理念為行業提供了新的發展思路。但從技術到市場、從生態到服務,能否真正改變現有算力格局,仍需產業各方共同推動與時間檢驗。在AI競爭日益激烈的全球背景下,開放合作與自主創新并重,或許是構建可持續算力未來的更優路徑。