《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 華為創造AI算力新紀錄

華為創造AI算力新紀錄

萬卡集群訓練98%可用度 秒級恢復
2025-06-11
來源:快科技

大模型的落地能力,核心在于性能的穩定輸出,而性能穩定的底層支撐,是強大的算力集群。其中,構建萬卡級算力集群,已成為全球公認的頂尖技術挑戰。

但是,在華為昇騰萬卡算力集群,已經可以做到近乎“永不罷工”了:

-訓練可用度達98%:這就好比你開著一輛車,全年365天里,有358天無論刮風下雨都能一腳油門就出發,從不掉鏈子,有問題可以隨時檢修,幾乎不會耽誤你的任何行程。

-線性度超95%:比如用1000臺算力卡干活比用100臺快9.5倍以上,疊加更多算力,訓練速度近似等比提升,不浪費資源。

-秒級恢復、分鐘級診斷:不論訓練還是推理,故障后幾秒鐘就可恢復;幾分鐘內定位到具體是哪臺機器、哪個部件出問題。

1.jpg

或許有小伙伴要問了:AI算力需要如此24小時不間斷的運作嗎?

答案是肯定的,需要,且有必要。

因為小到我們用手機導個航,背后都會有幾十個AI模型在發力來分析路況、預測擁堵;再如醫院用AI輔助診斷癌癥,系統得在瞬間處理掉成百上千的CT照片。

這些看似簡單的智能應用,其實都離不開如 “超級大腦” 般的AI算力集群,需要它們全天候不停歇地運轉著。

而要保證有這樣的能力,高訓練可用度、高線性度、快速消除故障,就相當于給AI發動機上了一份強有力的保險。

更嚴格來說,AI推理的可用度甚至還需要達到99.95%的程度。

那么華為又是如何做到這點的?

關于這一切背后的秘密,華為在今天首次把技術給公開了出來。

高可用的核心:三套“智能保險系統”

AI大集群出問題時,定位故障特別麻煩;畢竟系統規模龐大,軟件和硬件組成的技術棧錯綜復雜,而且調用鏈條還很長。

要解決問題,首先得確定故障出在哪個大的領域,接著再在這個領域內部一步步排查,確定具體的故障位置。在整個故障診斷過程中,面臨的挑戰非常大。

以往技術人員進行故障定位時,短則需數小時,長則可能耗時數天。這一過程不僅對技術人員的專業技能要求頗高,且往往難以快速鎖定故障設備及根本原因。

為此,華為團隊針對AI大集群面臨的復雜挑戰,構建了三大基礎能力。

首先是全棧可觀測能力。

它像是給集群裝了一套“火眼金睛”監控系統(故障感知),主要包含這幾部分:

-集群運行視圖:實時查看集群整體運行狀態,哪里 “卡殼” 一目了然;

-告警視圖:哪里出問題了,系統會主動 “打報告”,快速發出警報;

-網絡鏈路監控:盯著網絡連接的 “血管”,確保數據傳輸順暢;

-告警接入和配置:統一管理各種警報信息,還能根據需求靈活設置提醒規則;

-網絡流可觀測能力:追蹤數據在網絡中的 “流動軌跡”,哪里堵了馬上能發現。

2.png

同時,華為還拿出了一套 “故障診斷組合拳”,包含四大核心能力:

-全棧故障模式庫:就像一本 “故障字典”,收錄了各種可能的問題模式,方便快速對照排查;

-跨域故障診斷:不管故障藏在哪個 “領域”(軟件、硬件、網絡等),都能跨區域 “聯合破案”;

-計算節點故障診斷:精準定位計算單元(比如服務器)的具體問題,揪出 “罷工” 的節點;

-網絡故障診斷:專門對付網絡里的 “疑難雜癥”,比如斷網、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效,就像給工程師配了 “智能偵探工具”,大大縮短了找問題的時間。

最后,是一套“鋼鐵韌帶”自愈系統(容錯設計)。

想要把超平面網絡的厲害之處完全發揮出來,超節點的規模就得足夠大。不過到現在,還沒有哪個團隊能用光鏈路搭建超節點并成功的。

于是,華為團隊就琢磨出一套超節點光鏈路軟件容錯的好辦法。

這套辦法就像給超節點穿上了好幾層 “防護鎧甲”,用上 “超時代答”“綠色通道” 這些關鍵技術后,超節點基本不會出現大故障。

同時,又通過鏈路級重傳、光模塊動態調整Lane、重新執行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調度等技術,讓超節點對光模塊突然中斷這類故障的承受能力變得超強,能容忍超過99%的光模塊閃斷情況。

哪怕超節點里的光模塊數量一下子增加了10倍還多,依靠軟件提升可靠性的手段,再配合光鏈路壓力測試技術,光模塊閃斷的概率能降低到和傳統電鏈路差不多的水平,穩穩保障超平面網絡不出問題。

而且,華為團隊還打造出Step級重調度能力,以前遇到頻繁的 HBM 多比特 ECC 故障,修復可能要花很長時間,現在1分鐘內就能搞定,用戶因為故障損失的算力也減少了5%,實實在在地省下了不少 “計算力”。

計算卡再多,也不影響效率

線性度指標,簡單來說就是看算力卡數量增加后,訓練任務的速度或效率能提高多少(比如完成時間縮短的比例)。

舉個例子:如果算力卡增加2倍,訓練速度也能接近2倍,說明線性度高;如果速度只提高1.2倍,就說明線性度差,資源沒被充分利用。

為了讓訓練效率隨著算力卡增多而 “更成正比地提升”,華為團隊研發了四項關鍵技術:

TACO(拓撲感知的協同編排技術):就像給算力卡 “排兵布陣”,根據硬件連接結構(比如網絡拓撲)智能分配任務,避免 “通信堵車”。

NSF(網絡級網存算融合技術):把網絡傳輸、數據存儲和計算能力 “打包優化”,讓數據在算力卡之間流動更順暢,減少等待時間。

NB(拓撲感知的層次化集合通信技術):針對大規模集群設計 “分層通信策略”,比如讓同一區域的算力卡先快速協作,再跨區域同步,提升整體通信效率。

AICT(無侵入通信跨層測量與診斷技術):不干擾正常訓練的前提下,實時 “監控” 通信鏈路,快速發現哪里 “卡頓” 并修復,確保數據傳輸穩定。

通過這四項技術,華為讓Pangu大模型的訓練線性度(即效率隨算力卡增加的提升比例)明顯提高。

整體方案的思路大概如下圖所示:

3.png

實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。

訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%。

具備秒級恢復的能力

在大規模AI集群運行時,經常會因為各種硬件或軟件故障,導致訓練任務突然中斷。

目前行業里常用的辦法是,在訓練過程中定期保存 “進度存檔”(CKPT),等故障修復后從存檔點繼續訓練。

華為則憑借軟硬件全方面的技術創新,打造了一套 “分層分級” 的訓練任務故障快速恢復系統。

簡單來說,就是針對不同類型、不同程度的故障,制定了對應的 “快速重啟方案”,讓訓練任務能更快 “續上”。

不同層級的故障恢復能力可以參考下面這張圖:

4.png

除此之外,華為采用了一系列提速 “黑科技”:比如優化數據集查找速度、緩存模型編譯結果、加快通信鏈路建立、提升訓練進度保存效率。

這些技術效果顯著:如果是萬卡規模的超大型集群,從故障中恢復訓練,10分鐘內就能搞定;要是用 “進程級重調度恢復” 方法,3分鐘內就能接著訓練;要是用更厲害的 “進程級在線恢復”,30秒就能重新開始訓練。

而且,不管集群規模有多大,模型有多復雜,恢復時間基本不受影響,還能把因為故障導致的訓練進度倒退時間,壓縮到一次訓練循環的時長。

這么一來,AI集群能用的時間大大增加,大模型訓練的效率也快了很多。

在訓練階段后的推理,也有諸多問題亟待解決。

當千億級MoE模型不斷升級,模型部署的網絡結構也跟著變了。以前單機8卡就足夠跑一個推理實例,如今,大EP模型架構下,需要數十乃至上百張卡才能支撐推理運行。

但新架構帶來個麻煩:用的設備越多,出故障的可能性就越大,而且一旦有問題,影響的范圍會特別廣。

只要有一個硬件出故障,整個Decode實例(可以理解成模型運行的一個 “小團隊”)就沒法工作了,直接導致AI推理業務出問題,嚴重的話整個業務都會停擺。

為了解決大EP推理架構容易出故障的難題,華為團隊想出了一個分三步的 “保險計劃”:

第一步是實例間切換,就像給業務準備了 “備用團隊”,一個實例不行了,馬上換另一個頂上;

第二步是實例內重啟恢復,發現實例里有問題,快速重啟內部程序,讓它重新正常工作;

第三步是實例內無損恢復,即使出故障也不丟失數據,在不影響業務的情況下修復問題。

這三步方案需要芯片驅動、框架軟件、平臺系統各個層面緊密配合,組成一套完整的 “防護網”。遇到不同類型的故障,就用最合適的恢復方法,盡可能減少對用戶的影響,讓AI推理業務穩穩運行。

5.png

在實例內重啟恢復技術中,通過構建帶內快速故障感知和重調度機制,搭配參數權重預熱和鏡像預熱技術,能把實例內部的重啟恢復時間壓縮到5分鐘以內。

還有一項很厲害的TOKEN級重試技術,當遇到HBM KV Cache故障時,從故障發生到重新輸出Token的整個恢復過程不到10秒。

對比業界通常需要10分鐘才能恢復實例的情況,這項技術能將故障帶來的影響降低60倍,幾乎讓用戶感覺不到故障發生,極大提升了系統的穩定性和用戶體驗。

總結來看,針對AI算力集群的高可用性,華為團隊創新性提出了“3+3”雙維度技術體系,即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力,以及集群線性度、訓練快恢、推理快恢等三大業務支撐能力。

這六大創新均帶來了非常可觀的收益,比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
欧美激情办公室aⅴ_国产欧美综合一区二区三区_欧美午夜精品久久久久免费视_福利视频欧美一区二区三区

          夜夜嗨av一区二区三区网站四季av| 欧美另类亚洲| 午夜国产一区| 欧美精品国产一区| 亚洲精选在线| 欧美在线影院| 亚洲作爱视频| 欧美国产另类| 国产精品久久久久久模特| 女人香蕉久久**毛片精品| 91久久黄色| 欧美国产另类| 国产精品制服诱惑| 好吊色欧美一区二区三区四区| 国产日韩一区二区三区| 国产精品av一区二区| 香蕉久久a毛片| 伊人影院久久| 午夜精品电影| 亚洲一区三区电影在线观看| 国产一区二区三区四区hd| 亚洲欧美激情诱惑| 亚洲精品一品区二品区三品区| 老司机精品导航| 国产一区成人| 99视频日韩| 亚洲图片在线观看| 欧美日韩综合久久| 欧美在线三区| 美女被久久久| 国产一区二区三区高清| 亚洲日本欧美| 亚洲性图久久| 极品日韩久久| 亚洲午夜精品久久| 国产一区二区三区四区三区四 | 亚洲黄网站黄| 激情视频一区二区三区| 国产精品草草| 国产精品sss| 国产一区美女| 黄色精品免费| 亚洲精品1区| 在线视频一区观看| 亚洲综合视频一区| 久久精品中文| 欧美另类视频| 伊人久久大香线蕉综合热线| 黄色日韩在线| 国产日韩综合| 老牛影视一区二区三区| 欧美日韩国内| 亚洲国产精品一区在线观看不卡| 激情久久综合| 一区二区三区四区五区视频| 在线视频精品| 欧美在线视频二区| 黄色成人91| 亚洲美洲欧洲综合国产一区| 国产日韩视频| 欧美一区1区三区3区公司 | 欧美日韩少妇| 在线成人av| 亚洲精品国产日韩| 免费看的黄色欧美网站| 欧美日本亚洲韩国国产| 精品动漫3d一区二区三区免费版| 亚洲国产91| 麻豆成人在线播放| 好看不卡的中文字幕| 国产日韩精品一区观看| 久久精品日产第一区二区 | 国产日韩欧美一区在线 | 亚洲专区免费| 欧美午夜一区二区福利视频| 伊人久久亚洲美女图片| 国产亚洲毛片在线| 国内在线观看一区二区三区| 在线亚洲国产精品网站| 欧美日韩一区二区视频在线| 国产一区二区精品| 国模 一区 二区 三区| 国产欧美三级| 国语精品中文字幕| 亚洲欧美日韩一区在线观看| 欧美日韩免费| 亚洲影院一区| 精品动漫3d一区二区三区免费版 | 欧美激情1区2区| 宅男噜噜噜66国产日韩在线观看| 欧美成人午夜| 亚洲欧美日韩在线观看a三区| 国产精品chinese| 蜜桃av综合| 夜夜精品视频| 亚洲三级毛片| 亚洲第一在线| 亚洲特色特黄| 欧美日韩系列| 欧美另类高清视频在线| 久久精品天堂| 免费视频久久| 亚洲中字黄色| 国产免费成人| 先锋a资源在线看亚洲| 亚洲人成高清| 影音先锋一区| 亚洲高清在线播放| 国产综合网站| 欧美日韩日本网| 欧美日产一区二区三区在线观看| 欧美专区18| 免费看的黄色欧美网站| 国产精品尤物| 国产日韩欧美精品| 一本色道久久精品| 精品福利电影| 在线免费观看一区二区三区| 国产一区日韩一区| 国产精品观看| 国产一区美女| 精品福利av| 亚洲激情一区| 中国成人在线视频| 国产日韩综合| 久久精品30| 老司机精品久久| 欧美日韩亚洲国产精品| 国模大胆一区二区三区| 在线观看欧美一区| 亚洲久久成人| 国产精品免费一区二区三区在线观看| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲第一精品影视| 国产精品日本| 久久精品人人做人人爽电影蜜月| 欧美xxx在线观看| 狠狠入ady亚洲精品经典电影| 亚洲国产美女 | 精品不卡在线| 亚洲一区黄色| 国产综合欧美| 欧美亚洲三区| 欧美日韩网站| 一区二区日韩免费看| 久久婷婷亚洲| 亚洲福利免费| 久久青青草原一区二区| 亚洲无毛电影| 久久国产精品一区二区三区四区| 欧美日韩国产成人精品| 国产一区二区久久久| 欧美日韩免费观看一区| 国产偷国产偷亚洲高清97cao| 欧美在线二区| 国产精品乱码一区二区三区| 欧美日韩视频在线一区二区观看视频| 日韩视频在线播放| 欧美成人tv| 国产精品区一区| 国产一区二区三区四区三区四| 一本一本a久久| 国产综合自拍| 你懂的视频一区二区| 亚洲美女啪啪| 亚洲天堂偷拍| 欧美大片一区| 久久成人国产| 中文久久精品| 亚洲毛片在线| 亚洲国产一区二区三区a毛片 | 中文久久精品| 亚洲精品欧洲精品| 91久久黄色| 中文日韩在线| 午夜天堂精品久久久久| 国产日韩精品久久| 狠狠色噜噜狠狠狠狠色吗综合| 国产伦理一区| 一本一道久久综合狠狠老精东影业 | 亚洲一区二区三区在线观看视频| 午夜精品美女久久久久av福利| 国产一区二区三区成人欧美日韩在线观看 | 国产精品久久久久久久久久直播| 国产一区二区无遮挡| 欧美 日韩 国产在线 | 欧美精品一区三区在线观看| 老鸭窝毛片一区二区三区| 99re6热在线精品视频播放速度| 欧美日韩亚洲在线| 欧美在线视频一区二区三区| 免费欧美在线| 久久免费高清| 欧美日韩一区二区三区在线观看免 | 亚洲一区二区三区精品在线观看| 亚洲激情综合| 日韩午夜黄色| 亚洲欧美春色| 久久久久欧美| 欧美激情无毛| 在线看片一区| 国产精品一级| 久久久夜夜夜| 欧美日韩三级| 影音先锋国产精品| 在线亚洲精品| 麻豆成人在线播放| 久久一区视频| 在线观看成人av| 国产精品视频久久一区| 久久大逼视频| 欧美日韩精品一区| 99在线观看免费视频精品观看| 中文一区二区| 久久裸体视频| 国产字幕视频一区二区| 夜夜爽www精品| 久久综合一区二区三区| 在线观看日韩av电影| 国产精品高清一区二区三区| 伊人久久大香线蕉综合热线| 一本久久综合| 午夜视频一区| 亚洲精品国产精品国自产观看| 亚洲免费网址| 黄色亚洲精品| 亚洲免费中文| 一区视频在线| 老**午夜毛片一区二区三区 | 在线欧美不卡| 先锋亚洲精品| 雨宫琴音一区二区在线| 久久青青草原一区二区| 久久激情视频| 国产亚洲欧美一区二区| 亚洲区第一页| 欧美日韩一区二区国产| 宅男噜噜噜66国产日韩在线观看| 久久亚洲精品伦理| 国产精品久久久久久久久久直播| 欧美一区二区三区久久精品| 亚洲精选在线| 欧美午夜精品| 久久精品一二三区| 中文一区二区| 狠狠色综合色区| 欧美福利网址| 久久国产一区| 亚洲免费在线| 99精品免费视频| 亚洲国产黄色| 在线观看一区视频| 国产精品国色综合久久| 老司机午夜免费精品视频| 亚洲欧美国产不卡| 一本色道久久99精品综合| 亚洲调教视频在线观看| 欧美日韩精品久久| 久久久精品动漫| 久久久www免费人成黑人精品| 一区二区三区|亚洲午夜| 亚洲黄色成人| 亚洲啪啪91| 亚洲国产一区二区精品专区| 影音先锋中文字幕一区| 亚洲一级高清| 亚洲国产精品一区制服丝袜 | 国内揄拍国内精品久久| 欧美ab在线视频| 你懂的成人av| 欧美一区精品| 欧美视频1区| 在线观看不卡| 99精品免费| 亚洲永久视频| 久久精品免费| 欧美日韩亚洲三区| 亚洲国产精品一区二区第一页| 久久狠狠婷婷| 鲁大师成人一区二区三区 | 欧美午夜不卡影院在线观看完整版免费| 久久一区免费| 国内精品亚洲| 亚洲免费大片| 噜噜噜在线观看免费视频日韩| 免费看的黄色欧美网站| 午夜日韩视频| 日韩一级精品| 裸体丰满少妇做受久久99精品| 欧美大香线蕉线伊人久久国产精品| 国产精品九九| 国产精品免费一区二区三区观看| 麻豆91精品| 黄色在线成人| 裸体丰满少妇做受久久99精品| 欧美精品福利| 国产欧美日本| 国产精品啊啊啊| 国产欧美亚洲一区| 欧美亚州在线观看| 亚洲永久视频| 在线国产欧美| 亚洲欧美文学| 亚洲一区国产| 18成人免费观看视频| 免费在线观看成人av| 黄色成人91| 久久综合福利| 国产精品亚洲产品| 雨宫琴音一区二区在线| 久久精品综合| 国产精品色网| 亚洲第一精品影视| 午夜精品偷拍| 亚洲综合电影一区二区三区| 激情欧美日韩一区| 欧美1区2区3区| 男女av一区三区二区色多| 日韩视频一区| 影音先锋久久| 国产综合亚洲精品一区二| 久久久久一区| 麻豆av福利av久久av| 在线亚洲观看| 99热这里只有成人精品国产| 国产精品大片免费观看| 你懂的国产精品永久在线| 先锋影音久久久| 在线亚洲美日韩| 一区二区av| 一区二区高清视频| 一本不卡影院| 亚洲欧洲精品一区| 亚洲国产专区| 亚洲日本激情| 夜夜嗨一区二区| 亚洲精品国产日韩| 99国产成+人+综合+亚洲欧美| 在线精品福利| 亚洲国产精品久久久久婷婷老年| 国产精品国产亚洲精品看不卡15 | 午夜影院日韩| 午夜在线一区二区| 免费在线欧美黄色| 久久人人97超碰国产公开结果| 欧美亚洲专区| 欧美成人tv| 欧美日韩精品不卡| 国模一区二区三区| 1024日韩| 国产精品乱子乱xxxx| 亚洲一区二区三区涩| 久久国产精品99国产| 麻豆精品传媒视频| 欧美日韩成人| 亚洲黄色影片| 久久大香伊蕉在人线观看热2| 久久亚洲国产精品一区二区| 欧美精品1区| 91久久久一线二线三线品牌| 国产欧美二区| 新67194成人永久网站| 久久综合九色综合久99| 欧美私人啪啪vps| 99精品国产一区二区青青牛奶| 国产精品一区二区三区四区五区| 久久久福利视频| 国产精品高清一区二区三区| 亚洲啪啪91| 久久亚洲精选| 亚洲乱码视频| 久久精品首页| 亚洲成色www久久网站| 国产乱码精品| 欧美午夜一区| 国产精品日韩欧美一区二区| 欧美国产高清| 国产精品区一区| 狠狠久久婷婷| 免费永久网站黄欧美| 伊人久久婷婷| 欧美激情性爽国产精品17p| 亚洲黄色一区二区三区| 久热精品在线| 国产精品入口| 一区二区视频在线观看| 麻豆久久久9性大片| 影音先锋久久精品| 欧美在线视屏| 亚洲欧美日韩在线观看a三区 | 麻豆成人在线播放| 国产精品av久久久久久麻豆网| 亚洲欧洲日本一区二区三区| 久久精品免费| 亚洲精品九九| 欧美三区在线| 久久久夜夜夜| 国产日韩亚洲欧美精品| 欧美日韩1区| 久久精品中文|