香蕉国产精品麻豆亚洲欧美日韩精品自拍欧美v国 ,欧美xxxxx性喷潮,狂猛欧美激情性XXXX在线观看

英偉達(dá)刷新AI推理紀(jì)錄，兩款全新GPU首秀

日期： 2021-04-22

來源：芯基建

關(guān)鍵詞： 英偉達(dá) AI GPU

　　雷鋒網(wǎng)消息，時隔半年，MLPerf組織發(fā)布最新的MLPerf Inference v1.0結(jié)果，V1.0引入了新的功率測量技術(shù)、工具和度量標(biāo)準(zhǔn)，以補(bǔ)充性能基準(zhǔn)，新指標(biāo)更容易比較系統(tǒng)的能耗，性能和功耗。

　　V1.0版本的基準(zhǔn)測試內(nèi)容云端推理依舊包括推薦系統(tǒng)、自然語言處理、語音識別和醫(yī)療影像等一系列工作負(fù)載，邊緣AI推理測試則不包括推薦系統(tǒng)。

　　MLPerf Inference v1.0

　　所有主要的OEM都提交了MLPerf測試結(jié)果，其中，在AI領(lǐng)域占有優(yōu)勢地位的英偉達(dá)此次是唯一一家提交了從數(shù)據(jù)中心到邊緣所有MLPerf基準(zhǔn)測試類別數(shù)據(jù)的公司，并且憑借A100 GPU刷新了紀(jì)錄。不僅如此，超過一半提交成績的系統(tǒng)都采用了英偉達(dá)的AI平臺。

　　不過，初創(chuàng)公司提交其AI芯片推理性能Benchmark的依舊很少。

　　AI推理最高性能半年提升45%

　　—

　　雷鋒網(wǎng)在 MLPerf Inference v0.7 結(jié)果發(fā)布的時候已經(jīng)介紹過，英偉達(dá)去年5月發(fā)布的安培架構(gòu)A100 Tensor Core GPU在云端推理的基準(zhǔn)測試性能是最先進(jìn)英特爾CPU的237倍。經(jīng)過半年的優(yōu)化，英偉達(dá)又將推薦系統(tǒng)模型DLRM，語音識別模型RNN-T和醫(yī)療影像3D U-Net模型的性能進(jìn)一步提升，提升幅度達(dá)最高達(dá)45%，與CPU的性能差距也提升至314倍。

　　從架構(gòu)的角度看，GPU架構(gòu)用于推理優(yōu)勢并不明顯，但英偉達(dá)依舊憑借其架構(gòu)設(shè)計配合軟件優(yōu)化刷新了MLPerf AI云端和邊緣推理的Benchmark紀(jì)錄。MLPerf的Benchmark證明了A100 GPU性能，但其不菲的售價也是許多公司難以承受的。

　　今天，更具性價比的英偉達(dá)A30（功耗165W）和A10（功耗150W） GPU也在MLPerf Inference v1.0中首秀，A30 GPU強(qiáng)于計算，支持廣泛的AI推理和主流企業(yè)級計算工作負(fù)載，如推薦系統(tǒng)、對話式AI和計算機(jī)視覺。

　　A10 GPU更側(cè)重圖像性能，可加速深度學(xué)習(xí)推理、交互式渲染、計算機(jī)輔助設(shè)計和云游戲?yàn)榛旌闲虯I和圖形工作負(fù)載提供支持。可以應(yīng)用于AI推理和訓(xùn)練的A30和A10 GPU今年夏天開始會應(yīng)用于各類服務(wù)器中。

　　A100云端AI推理性能

　　比CPU高314倍

　　—

　　A100經(jīng)過半年的優(yōu)化，與CPU的性能差距從v0.7時最多237倍的差距增加到了最高314倍。具體來看，在數(shù)據(jù)中心推理的Benchmark中，在離線（Offline）測試，A100比最新發(fā)布的A10有1-3倍的性能提升，在服務(wù)器（Server）測試中，A100的性能最高是A10的近5倍，在兩種模式下，A30的性能都比A10高。

　　值得注意的是，英特爾本月初最新發(fā)布的第三代至強(qiáng)可擴(kuò)展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升，但相比A100 GPU體現(xiàn)出17-314倍的性能差距。

　　高通AI 100的云端AI推理在MLPerf Inference v1.0測試下表現(xiàn)不錯，其提交的離線和服務(wù)器測試下的ResNet-50和SSD-Large模型成績顯示，高通AI 100的推理性能均比英偉達(dá)新推出的A10 GPU高，其它模型的成績高通并未提交。

　　從每瓦性能來看，高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高，但性能比A100低。

　　賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測試中表現(xiàn)不錯。

　　Jetson系列是唯一提交所有

　　邊緣推理測試成績的芯片

　　—

　　A系列GPU在云端AI推理的性能優(yōu)勢可以延續(xù)至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream，A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的性能優(yōu)勢，高通A100在ResNet-50模型下也優(yōu)勢明顯，不過高通也僅提交了這一模型的成績。

　　這些產(chǎn)品用于邊緣AI推理有些大材小用，英偉達(dá)的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景，根據(jù)提交的數(shù)據(jù)，Centaur公司在ResNet-50模型中優(yōu)勢明顯，SSD-Small模型下的性能與Jetson Xavier NX性能相當(dāng)。

　　邊緣AI推理的Multi-Stream Benchmark，只有英偉達(dá)提交了成績，A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍。

　　在英偉達(dá)此次提交的結(jié)果中，多項(xiàng)是基于Triton推理服務(wù)器，其支持所有主要框架的模型，可在GPU及CPU上運(yùn)行，還針對批處理、實(shí)時和串流傳輸?shù)炔煌牟樵冾愋瓦M(jìn)行了優(yōu)化，可簡化在應(yīng)用中部署AI的復(fù)雜性。

　　雷鋒網(wǎng)了解到，在配置相當(dāng)?shù)那闆r下，采用Triton的提交結(jié)果所達(dá)到的性能接近于最優(yōu)化GPU能夠達(dá)到性能的95%，和最優(yōu)化CPU99%的性能。

　　另外，英偉達(dá)還使用Ampere架構(gòu)的多實(shí)例GPU性能，在單一GPU上使用7個MIG實(shí)例，同時運(yùn)行所有7項(xiàng)MLPerf離線測試，實(shí)現(xiàn)了與單一MIG實(shí)例獨(dú)立運(yùn)行幾乎完全相同的性能。

　　小結(jié)

　　—

　　MLPerf Benchmark結(jié)果的持續(xù)更新，可以為在IT基礎(chǔ)設(shè)施投資的企業(yè)提供一些有價值的參考，也能推動AI的應(yīng)用和普及。在這個過程中，軟件對于AI性能的提升非常重要，同樣是A100 GPU，通過有針對性的優(yōu)化，半年實(shí)現(xiàn)了45%的性能提升。

　　同時也不難發(fā)現(xiàn)，英偉達(dá)正在通過持續(xù)的軟硬件優(yōu)化，以及更豐富的產(chǎn)品組合，保持其在AI領(lǐng)域的領(lǐng)導(dǎo)力，在AI領(lǐng)域想要超越英偉達(dá)似乎正在變得越來越難。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英偉達(dá)刷新AI推理紀(jì)錄，兩款全新GPU首秀

日期： 2021-04-22

來源： 芯基建

相關(guān)內(nèi)容

來源：芯基建