《電子技術應用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 英偉達刷新AI推理紀錄,兩款全新GPU首秀

英偉達刷新AI推理紀錄,兩款全新GPU首秀

2021-04-22
來源: 芯基建
關鍵詞: 英偉達 AI GPU

  雷鋒網(wǎng)消息,時隔半年,MLPerf組織發(fā)布最新的MLPerf Inference v1.0結果,V1.0引入了新的功率測量技術、工具和度量標準,以補充性能基準,新指標更容易比較系統(tǒng)的能耗,性能和功耗。

  V1.0版本的基準測試內(nèi)容云端推理依舊包括推薦系統(tǒng)、自然語言處理、語音識別和醫(yī)療影像等一系列工作負載,邊緣AI推理測試則不包括推薦系統(tǒng)。

2.png

  MLPerf Inference v1.0

  所有主要的OEM都提交了MLPerf測試結果,其中,在AI領域占有優(yōu)勢地位的英偉達此次是唯一一家提交了從數(shù)據(jù)中心到邊緣所有MLPerf基準測試類別數(shù)據(jù)的公司,并且憑借A100 GPU刷新了紀錄。不僅如此,超過一半提交成績的系統(tǒng)都采用了英偉達的AI平臺。

  不過,初創(chuàng)公司提交其AI芯片推理性能Benchmark的依舊很少。

  AI推理最高性能半年提升45%

  —

  雷鋒網(wǎng)在 MLPerf Inference v0.7 結果發(fā)布的時候已經(jīng)介紹過,英偉達去年5月發(fā)布的安培架構A100 Tensor Core GPU在云端推理的基準測試性能是最先進英特爾CPU的237倍。經(jīng)過半年的優(yōu)化,英偉達又將推薦系統(tǒng)模型DLRM,語音識別模型RNN-T和醫(yī)療影像3D U-Net模型的性能進一步提升,提升幅度達最高達45%,與CPU的性能差距也提升至314倍。

 3.png

  從架構的角度看,GPU架構用于推理優(yōu)勢并不明顯,但英偉達依舊憑借其架構設計配合軟件優(yōu)化刷新了MLPerf AI云端和邊緣推理的Benchmark紀錄。MLPerf的Benchmark證明了A100 GPU性能,但其不菲的售價也是許多公司難以承受的。

  今天,更具性價比的英偉達A30(功耗165W)和A10(功耗150W) GPU也在MLPerf Inference v1.0中首秀,A30 GPU強于計算,支持廣泛的AI推理和主流企業(yè)級計算工作負載,如推薦系統(tǒng)、對話式AI和計算機視覺。

  A10 GPU更側(cè)重圖像性能,可加速深度學習推理、交互式渲染、計算機輔助設計和云游戲為混合型AI和圖形工作負載提供支持。可以應用于AI推理和訓練的A30和A10 GPU今年夏天開始會應用于各類服務器中。

4.png

  A100云端AI推理性能

  比CPU高314倍

  —

  A100經(jīng)過半年的優(yōu)化,與CPU的性能差距從v0.7時最多237倍的差距增加到了最高314倍。具體來看,在數(shù)據(jù)中心推理的Benchmark中,在離線(Offline)測試,A100比最新發(fā)布的A10有1-3倍的性能提升,在服務器(Server)測試中,A100的性能最高是A10的近5倍,在兩種模式下,A30的性能都比A10高。

 5.png

  值得注意的是,英特爾本月初最新發(fā)布的第三代至強可擴展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升,但相比A100 GPU體現(xiàn)出17-314倍的性能差距。

  高通AI 100的云端AI推理在MLPerf Inference v1.0測試下表現(xiàn)不錯,其提交的離線和服務器測試下的ResNet-50和SSD-Large模型成績顯示,高通AI 100的推理性能均比英偉達新推出的A10 GPU高,其它模型的成績高通并未提交。

  從每瓦性能來看,高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高,但性能比A100低。

  賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測試中表現(xiàn)不錯。

  Jetson系列是唯一提交所有

  邊緣推理測試成績的芯片

  —

  A系列GPU在云端AI推理的性能優(yōu)勢可以延續(xù)至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream,A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的性能優(yōu)勢,高通A100在ResNet-50模型下也優(yōu)勢明顯,不過高通也僅提交了這一模型的成績。

  6.png

  這些產(chǎn)品用于邊緣AI推理有些大材小用,英偉達的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景,根據(jù)提交的數(shù)據(jù),Centaur公司在ResNet-50模型中優(yōu)勢明顯,SSD-Small模型下的性能與Jetson Xavier NX性能相當。

  邊緣AI推理的Multi-Stream Benchmark,只有英偉達提交了成績,A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍。

  在英偉達此次提交的結果中,多項是基于Triton推理服務器,其支持所有主要框架的模型,可在GPU及CPU上運行,還針對批處理、實時和串流傳輸?shù)炔煌牟樵冾愋瓦M行了優(yōu)化,可簡化在應用中部署AI的復雜性。

 7.png

  雷鋒網(wǎng)了解到,在配置相當?shù)那闆r下,采用Triton的提交結果所達到的性能接近于最優(yōu)化GPU能夠達到性能的95%,和最優(yōu)化CPU99%的性能。

  另外,英偉達還使用Ampere架構的多實例GPU性能,在單一GPU上使用7個MIG實例,同時運行所有7項MLPerf離線測試,實現(xiàn)了與單一MIG實例獨立運行幾乎完全相同的性能。

  8.png

  小結

  —

  MLPerf Benchmark結果的持續(xù)更新,可以為在IT基礎設施投資的企業(yè)提供一些有價值的參考,也能推動AI的應用和普及。在這個過程中,軟件對于AI性能的提升非常重要,同樣是A100 GPU,通過有針對性的優(yōu)化,半年實現(xiàn)了45%的性能提升。

  同時也不難發(fā)現(xiàn),英偉達正在通過持續(xù)的軟硬件優(yōu)化,以及更豐富的產(chǎn)品組合,保持其在AI領域的領導力,在AI領域想要超越英偉達似乎正在變得越來越難。

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 午夜时刻免费实验区观看| 贵妇肉体销魂阅读| 欧美成人免费tv在线播放| 黑人vs亚洲人在线播放| 老司机亚洲精品影视www| 激情啪啪精品一区二区| 极品丝袜乱系列在线阅读| 日产精品99久久久久久| 天天摸日日摸人人看| 国产精品99无码一区二区| 国产AV国片精品一区二区| 亚洲视频精品在线| 久久精品人妻一区二区三区| 丁香花免费高清视频完整版 | 日本在线观看电影| 婷婷伊人五月天| 国产精品h在线观看| 同性女女黄h片在线播放| 亚洲欧美成aⅴ人在线观看| 久久久久亚洲av无码去区首| 99视频免费播放| 边摸边吃奶边做爽免费视频99| 男人j桶女人j免费视频| 日韩精品无码一本二本三本| 好吊操视频在这星| 国产成人精品a视频| 人人妻人人澡av天堂香蕉| 久久午夜夜伦鲁鲁片免费无码| JIZZJIZZ亚洲日本少妇| 豪妇荡乳1一5白玉兰免费下载| 永久免费看bbb| 我爱我色成人网| 国产精品亚洲а∨无码播放| 午夜精品久久久久久| 亚洲av无码一区二区乱孑伦as| 一个人看的在线免费视频| 麻豆回家视频区一区二| 永久免费bbbbbb视频| 成人精品一区二区电影| 国产精品k频道在线看| 偷窥欧美wc经典tv|