欧美二区视频在线观看免费,国产欧美日本亚洲精品一5,国产欧美亚洲一区二区

英偉達挖走英特爾架構師，加強Arm CPU布局

日期： 2022-04-30

來源：半導體行業觀察

關鍵詞： 英偉達英特爾 ArmCPU

　　英偉達在其 Arm CPU 的推動下又獲得了另一個高調的聘用——這一次是在英特爾的眼皮子底下。

　　據報道，英特爾以色列工廠的設計經理，也是成功的 Tiger Lake 架構背后的經理之一Rafi Marom，最近跳槽到位于該國的 Nvidia 公司。他作為高級 CPU 總監的新角色使他成為公司未來 Arm 產品的主要架構師之一。

　　在其斥資數十億美元收購這家總部位于英國的公司失敗后，英偉達似乎正在將其Arm 核心設計能力加倍，因為它旨在進一步推動極限。英偉達需要其芯片設計來服務于它的目的；另一方面，Arm 押注于可應用于多個產品類別和合作伙伴的通用設計。

　　挖角——或與現有承包商仍有聯系的合同人員——是一種相對常見的半導體行業做法。雖然該行業一直在顯示出巨大的增長——而且這種增長預計只會加速——但缺乏經過適當培訓的高水平技術工人是一個真正的問題。英特爾、AMD、英偉達甚至蘋果公司都經常在他們之間雇傭貢獻者，這加強了他們的員工隊伍和設計能力，并剝奪了競爭對手的寶貴資產。

　　預計英偉達將利用 Marom 的知識來設計英偉達未來基于 Arm 的 CPU 產品。這些設計將在公司的GraceHopper Superchip之后推出，該芯片利用 72 個基于 Neoverse 的 Arm v9 內核，并聲稱與典型的 x86 CPU 設計相比性能提高了 10 倍。

　　這一聲明自然引起了英特爾的注意，促使該公司認識到英偉達的目標是在 CPU 領域與這家藍色巨頭展開競爭。英特爾甚至設立了數十億美元的基金，旨在留住和吸引新人才，以防止此類情況發生。然而具有諷刺意味的是，英特爾自己的另一家公司現在將盡最大努力推進英偉達的目標。

　　英偉達發力CPU，背后打什么算盤？

　　在一年左右的時間里，隨著“Grace”Arm 服務器 CPU 的推出，Nvidia 的任何人相信或大聲說并非數據中心中的每個工作負載都需要 GPU 加速并不是異端邪說。

　　在某種程度上，隨著 BlueField 系列基于 Arm 的 DPU 處理器的采用，這種轉變已經在 Nvidia 的系統架構中發生。但隨著 Grace CPU 的發布，在一年前的 GTC 2021 大會上進行了預覽，在2023 年上半年的某個時候，如果一切順利，Nvidia 將立即成為 Arm 服務器芯片的可靠供應商，可以在條款上與之競爭每瓦的性能，我們假設，每瓦的每美元成本，同時具有最好的 X86、Arm 或 Power 架構。對于英偉達來說，從 GPU 加速器供應商轉變為主機 CPU 供應商——以及擁有大量自己的向量數學能力的主機 CPU ——這將是一個重要事件。非常重要的事情——將能夠運行整個 Nvidia HPC 和 AI 堆棧，包括編譯器、庫和其他系統軟件。Grace CPU 將與 Hopper GPU 完全匹敵，COBOL 發明前美國海軍少將可能會在隱喻意義上表示贊同。

　　十多年來，我們一直在倡導 Nvidia 將 Arm 服務器芯片推向市場，當 Nvidia 聯合創始人兼首席執行官 Jensen Huang在 1 月份宣布“Project Denver”Arm 服務器計劃時，我們對這種可能性感到興奮。2011 年，第一波 Arm 服務器芯片試圖沖破數據中心的大門。2014 年，當兩個 Denver Arm 內核出現在 Tegra K1 “superchip” 混合 CPU-GPU 芯片上時，街上的消息是 Nvidia 提出了自己的 CPU 指令集架構（ISA），并在此基礎上模擬 Arm ISA，而且，重要的是，它也能夠模擬 X86 ISA。（Transmeta 早在 20 年前就嘗試過這樣做，還記得嗎？）想象一下，如果 Nvidia 推出了可以模擬 Xeon 或 Opteron（現在是 Epyc）并且還可以運行 Arm 工作負載的全功能 Denver 服務器芯片，那么可能會引發訴訟，也許，它自己的原生模式。。 . .

　　但遺憾的是，我們不得不再等十幾年，英偉達以 400 億美元從軟銀收購 Arm Holdings 的交易落空，英偉達的更清潔的 Arm 服務器芯片計劃才出現。我們認為這是 Nvidia 在提出 SoftBank 提議之前最初的計劃——我們和 Huang 開玩笑說我們想要 Nvidia 的 Arm 服務器芯片，但 Nvidia 不需要Victor Kiam并購買整個公司。

　　也就是說，我們了解整個 Arm 的千載難逢的機會——從財務上來講，這是一個很好的機會，但主要是 Nvidia 股票，它像現金一樣支出，但實際上不是現金。而且我們還完全理解了未來 Aarmv9 架構的影響，以及許多機器學習工作——當然大部分推理和可能的一些訓練——將保留在 CPU 上并且不會遷移到 GPU 或其他加速器這一事實。正如我們在 2021 年 3 月仔細研究 Armv9 公告時所說的那樣就在 Grace 的努力獲得成功后的幾周和 Arm Holdings 交易宣布的 8 個月后，英偉達想要收購 Arm：它可以獲得矢量、矩陣和數字信號處理知識產權的許可資金，這將是添加到各種 CPU 正是因為系統架構師不想進行 GPU 卸載。

　　進行任何類型的卸載都存在編碼和安全隱患——加密加速器、在線 FPGA 加速器或 GPU 加速器——許多企業和組織不想處理它們。那些需要 10 倍或 100 倍更好的 AI 性能和 10 倍更好的 HPC 性能的人別無選擇，只能使用 GPU——除非他們想制造具有大量內核和大量矢量引擎的定制 CPU。富士通在日本 RIKEN 實驗室的“Fugaku”超級計算機上使用 A64FX Arm CPU 做到了這一點，國家并行計算機工程與技術研究中心為無錫國家超級計算中心的“太湖之光”和“海洋之光”超級計算機分別配備了神威SW26010和SW26010- pro處理器。這兩款機器都有令人印象深刻的結果。但高性價比和低功耗并不是這兩款機器的特點。（Fugaku三年前在 Green500 超級計算機排名中名列前茅，但已被英偉達“Ampere”A100 GPU 加速器加速的一長串機器推下榜單。“Hopper”H100 GPU 加速器只會讓這些比較變得更糟，而且隨著據我們所知，目前還沒有 A64FX-2 芯片與 A64FX 相比工藝縮小、時鐘速度提高、功率降低或價格/性能改進。

　　盡管如此，許多企業和組織仍將做出選擇，要么支付數百萬美元將其 C、C++ 和 Fortran 代碼拆開以進行 GPU 卸載，要么支付更多電費并花費更長的時間來得出答案并在 zippy CPU 上運行 AI 工作負載，該 CPU 可以很好地使用內存子系統進行矩陣和矢量數學運算，但與 GPU 加速器的skinny sprinter HBM 內存相比，內存子系統具有大量內存。

　　這就是 Grace CPU 對 Nvidia 如此重要的原因之一，Grace 將運行 Nvidia 為在 GPU 上運行而創建的所有軟件的聲明也是如此。

　　讓我們直接從 Huang 的 GTC 2022 主題演講的頂部寫下這一點：“Grace 將在人工智能、數據分析、科學計算和超大規模計算方面表現出色，Grace 將受到 Nvidia 的所有軟件平臺的歡迎——Nvidia RTX、HPC、英偉達 AI 和 Omniverse。”

　　Nvidia 加速計算高級總監 Paresh Kharya 對此更明確一點，因為在 Grace 上受到歡迎的軟件與在 Grace上運行的軟件不同：“我們正在按計劃執行我們的 CPU 路線圖，并且Grace CPU 還將運行 Nvidia 的所有計算堆棧，包括 Nvidia RTX、HPC、Nvidia AI 和 Omniverse，這是我們在產品中使用 Arm CPU 的十多年旅程的延續，包括三年前的一個關鍵里程碑，當時我們宣布將 CUDA 以及我們的全套 HPC 和 AI 軟件引入 Arm。”

　　這是我們了解到的關于 Grace CPU 的第一個重要的新事物。如果客戶想要它，它可以獨立運行，并且它可以進行任何類型的計算，就 Nvidia 而言，GPU 可以做到。

　　第二個重要的事情是，運行 HPC 或 AI 工作負載的混合 CPU-GPU 系統需要主機處理器，它們需要 CPU 和 GPU 之間更緊密的耦合，并且它們需要基于這兩種設備中盡可能相似技術的一致內存。這是迄今為止，尚未完成的事情。藍色巨人用 Power9 芯片展示了它上面有一對 NVLink 端口，它可以在具有 HBM2 內存的 Nvidia V100 GPU 網絡和 Power9 芯片上的 DRAM 之間相對無縫地共享內存。但是帶寬并不是那么平衡。CPU 對自己內存的訪問速度相對較慢，它成為機器中 GPU 集群的一種 DRAM 控制器，它們之間的對話速度要快得多。不同的是，進入 GPU 的 CPU 內存帶寬為 64 GB/秒，而 GPU 相互通信時的帶寬為 8,000 GB/秒。（這是一個假設的比較，使用了每張卡運行速度為 2 TB/秒的 HBM2e 內存，而不是運行速度為 3 TB/秒的高端 Hopper H100 封裝中的 HBM3 內存。）

　　正如我們在一年前展示的那樣，通過結合 Grace-Hopper 混合芯片，Grace CPU 可以鏈接到它們的低功耗 DDR5 內存（它們像 GPU 加速器上的 HBM 內存一樣在封裝上安裝），NVLink 端口加起來多達500 GB/秒的總帶寬，在 Grace CPU 集合之間有 500 GB/秒的 NVLink 端口，因此它們可以共享數據，并且在 Grace CPU 和 Hopper GPU 之間也有 500 GB/秒的鏈接。這就是 Nvidia 現在將其稱為 NVLink Chip to Chip，或簡稱為 NVLink C2C，它首次提供許可，以便其他芯片可以配備它。再一次，正如我們一年前所說：這種架構 Nvidia 可能正在創建 NVLink 內存，NVLink SerDes 直接鏈接到某種緩沖 LPDRR5 內存，就像 IBM 在 Power10 芯片中使用自己的信令 SerDes 作為 NUMA、I/O 和帶有緩沖 DDR5 內存的內存鏈接。

　　目前尚不清楚英偉達是否會將 Grace CPU 作為獨立產品出售給超大規模制造商、云構建商、OEM 或 ODM 以創建自己的系統。在這一點上，我們知道有兩種不同的 Grace 變體即將上市，它們看起來像是高端 Hopper GPU 加速器中使用的 SXM5 外形尺寸的變體：

　　上圖左側是 Grace-Hopper 模塊，將 CPU 和 GPU 通過 NVLink 緊密耦合在一個包中，右側是一對 Grace CPU，每個都有 72 個內核，512 GB 主存和 500 GB/秒的主內存帶寬。

　　如果您在下面非常仔細地查看 Grace 裸片的細節。

　　然后你會看到每個 Grace die 都有四個象限的內核。其中兩個象限各有 18 個內核，兩個象限各有 24 個內核，這是一個奇怪的比例，但確實如此。每個裸片有 84 個內核，看起來很容易擴展到 96 個內核，并在兩個象限中增加了另一行 12 個內核。在上面的模型中，芯片彼此旋轉 180 度，這對于整個封裝的平衡原因可能很重要。

　　每個 Grace die 都有 8 組 LPDDR5X 內存，我們假設它們來自三星，如果是這樣的話，它的運行頻率為 4.23 GHz，并且似乎在八個內存通道上提供了 62.5 GB/秒的帶寬。Nvidia 安裝在 Grace 封裝上的 LPDDR5X 內存具有 ECC 錯誤檢測和糾正清理功能，這是服務器工作負載所必需的。因此，在 Grace-Grace 對中，CPU 芯片與其主內存之間有 1 TB 的內存和總計 1 TB/秒的內存帶寬。（據我們所知，兩個 Grace 芯片之間有一個 900 GB/秒的 NVLink 端口。）兩個 Grace 芯片上還有 396 MB 的 L3 高速緩存，每個 Grace 芯片 198 MB，每個內核 2.75 MB . 如果緩存的產量是 100%，那就是。如果緩存的產量不是 100%，因為 CPU 的產量不是只有 84 個核心中的 72 個處于活動狀態，

　　目前尚不清楚 Grace CPU 中的內核是什么，但我們確信它們實現了 Armv9 指令集，并且我們認為它將成為市場上首批這樣做的 CPU 之一。（我們預計 Armv9 Graviton4 將在今年 11 月推出，如果 Amazon Web Services 保持其每年發布本土 CPU 的節奏，并從 2023 年初開始向其云中發貨。）但“波塞冬”平臺似乎不太可能以及它們的 N3 和 V2 內核（這些是我們對Gravitron3 中使用的“Zeus”V1 Armv8.9 內核和“Perseus”N2 Armv9 內核的繼任者的命名，目前還沒有人發貨）將準備好被扔進格蕾絲模具中。但是，Nvidia 總是有可能創建一個定制的 Armv9 內核，該內核具有兩個 256 位寬的 SVE2 向量，并且還使用其他 Armv9 功能。畢竟，Nvidia 不必等待 Arm 將 Poseidon 內核投入該領域，它也可以做各種定制的 ISA 工作，就像多年前在 Project Denver 所做的那樣。

　　不要假設它們只是 Perseus N2 核心就是我們所說的。展望未來，即使 Grace 1 芯片確實使用 N2 內核，也不要假設 Grace 2 不會是定制內核。Nvidia 在定制方面非常重視。我們有理由確定 Grace 將由臺積電以 5 納米工藝實現——比 Nvidia 在 Hopper GPU 上使用的定制 4N 工藝略胖——但如果 Grace 也在定制中實現也不要感到驚訝4N 工藝縮小模具并降低性能。

　　憑借Grace-Grace double-whammy模塊，Nvidia 預計該芯片將在 SPECrate2017_int_base 整數基準測試中提供超過 740 的評級。很難猜測 Grace 單元的時鐘速度可能在哪里，但是兩個 CPU（包括內存）的功耗只有 500 瓦，我們預計它在 2 GHz 左右，可能高達 2.3 GHz。如果是這種情況，那么這兩個 128 位 SVE2 FMA 向量單元每個內核每個時鐘可以執行 8 次浮點運算，即在 2 GHz 和 2.3 GHz 上運行的浮點數學運算中，在 FP64 雙精度下為 2.3 teraflops 和 2.65 teraflops。這不是很大，請注意。但它與許多其他 CPU 具有競爭力，尤其是那些針對超大規模處理器的 CPU。也就是說，我們認為 Nvidia 很有可能希望在其 Grace 內核中擁有一對 256 位 SVE2 向量，以將浮點性能提高一倍。這將使其與來自 AWS 的 Graviton3 相提并論，后者使用針對 HPC 和 AI 工作負載的“Zeus”V1 內核。

　　我們會看到的。

　　這將我們帶到了 Grace-Hopper 混合 CPU-GPU 模塊：

　　這基本上是卡上完整的加速計算單元。除了用于軟件和暫存器的閃存以及與外部世界的鏈接之外，它不需要任何其他東西。默認情況下，運行速度為 900 GB/秒的 NVLink 端口存在。目前尚不清楚 Grace-Hopper 模塊中將使用哪種 Hopper 芯片，但我們強烈懷疑它將是 GPU 的減速版本，就像在 Hopper H100 GPU 加速器的 PCI-Express 5.0 版本中使用的那樣，它具有其 80 GB 的 HBM3 內存提供 2 TB/秒的帶寬。這與 Nvidia 一年前為 Grace 制定的概述相吻合，GPU 及其 HBM3 內存堆棧僅消耗 350 瓦。這意味著 Grace-Hopper 封裝的功耗約為 600 瓦，總內存為 592 GB——略低于上表所示的 600 GB，但 Nvidia 正在四舍五入。

　　需要記住的一點是，Huang 在他的主題演講中表明，Grace GPU 和 Hopper GPU 的比率不是靜態的。當涉及到系統架構時，這將是極其有限的，因為并非所有工作負載都具有相同的 CPU 與 GPU 比率。以下是黃展示的一些可能性：

　　左側是帶有 400 Gb/sec ConnectX-7 適配器的 Grace 模塊，可以安全地假設每個計算模塊如果在整個系統中共享數據都需要自己的網絡接口。NVLink 將用于在一個節點內將這些組件捆綁在一起，如果看到 Nvidia 提出在盒子內的 NVSwitch 上運行的可組合性軟件以及跨盒子的 NVLink Switch 以使 CPU 和 GPU 模塊的機架可組合，這將是一件有趣的事情。（我們將對此進行思考。）

　　上圖中有趣的一個顯示了一個獨立的 Grace CPU，它具有 512 GB 內存，連接到 SXM5 外形尺寸的兩個獨立 Hopper GPU。這看起來像一個 MiniITX 風格的板。之后，它只是一個 Grace-Grace 模塊與兩個、四個或八個 SXM5 版本的 Hopper GPU 的組合。我們假設每對 GPU 都需要一個 NVSwitch 3 ASIC 將 CPU 鏈接到 GPU，而 Grace-Grace 模塊和 GPU 之間的鏈接可能還需要另一個 NVSwitch ASIC。（我們在這個故事中討論了新的 NVSwitch 和 NVLink Switch 設備和拓撲。）目前尚不清楚，但我們將找出并跟進。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

英偉達挖走英特爾架構師，加強Arm CPU布局

日期： 2022-04-30

來源：半導體行業觀察

相關內容