欧美人与人动人物2020,欧美日韩国产综合视频在线观看,亚洲性感综合欧美

xAI將在5年內部署等效5000萬個H100 GPU

日期： 2025-07-25

來源：芯智訊

關鍵詞： xAI 英偉達 AIGPU H100

7月23日，美國人工智能初創企業xAI CEO埃隆·馬斯克（Elon Musk）宣布，xAI 計劃在未來五年內部署相當于5,000萬個英偉達（NVIDIA）H100 等級的AI GPU，這一目標不僅在規模上超越當前的AI 硬件標準，還將在能效上有顯著提升。

50 ExaFLOPS 用于 AI 訓練

雖然5000萬個英偉達H100的數量看起來很多，但考慮到這里指的是“等效算力”，這也意味著如果xAI未來五年持續采用最先進的GPU，可能只需要不到100萬個左右就能夠實現。

目前一個英偉達H100 GPU 可以為 AI 訓練提供大約 1,000 FP16/BF16 TFLOPS（這些是目前最流行的 AI 訓練數據格式），因此到 2030 年，5000 萬臺此類 AI 加速器將需要提供 50 個 FP16/BF16 ExaFLOPS算力用于 AI 訓練。根據當前的性能改進趨勢，這在未來五年內是可以實現的。

需要65萬個Feynman Ultra GPU

假設英偉達（或其他AI芯片公司）將繼續以略慢于 Hopper 和 Blackwell 的升級速度擴展其 GPU 的 BF16/FP16 訓練性能，那么預計到 2028 年將使用 130 萬個最新的GPU 或 2029 年使用 65萬個最新的GPU。

如果 xAI 有足夠的錢花在英偉達最新的AI芯片上，甚至有可能更早實現部署 50 ExaFLOPS 的AI算力的目標。

目前馬斯克的 xAI 已經部署最新 AI GPU 加速器，以提高該公司的AI訓練能力，其 Colossus 1 超級集群使用了 200,000 個基于 Hopper 架構的英偉達H100 和 H200 加速器，以及 30,000 個基于 Blackwell 架構的 GB200 加速器。

此外，xAI接下來的目標是構建由 550,000 個 GB200 和 GB300 節點組成的 Colossus 2 集群（每個節點都有兩個 GPU，因此該集群將配備超過 100 萬個 GPU）。據馬斯克透露，第一批節點將在未來幾周內上線。

性能穩定提升

英偉達（和其他公司）新的 AI 加速器的更新節奏現在轉向了每年一更新，而具體產品的性能升級幅度類似于英特爾過去的 Tick-Tock 模型，即一年小升級，一年大升級。例如，Blackwell后續是Blackwell Ultra，再接下來是Rubin，后續是Rubin Ultra。

這種方法確保了每年性能的顯著提高，從而確保了長期性能的顯著提升。例如，英偉達聲稱其Blackwell B200的推理性能比2016年Pascal P100高出了20000倍，提供約20000個FP4 TFLOPS性能，而P100的性能只有19個FP16 TFLOPS。雖然不是直接比較，但該指標與推理任務相關。當以每生成一個Token的焦耳數來衡量時，Blackwell的能源效率也是Pascal的42500倍。

事實上，英偉達和其他公司并沒有隨著性能的持續提高而放緩性能提高的速度。例如，Blackwell Ultra架構（B300系列）在人工智能推理方面的FP4性能（15 FPLOPS）比原始Blackwell GPU（10 FPLOPS）高出50%，在人工智能訓練方面的BF16和TF32格式性能高出兩倍，但INT8、FP32和FP64性能較低。作為參考，BF16和FP16是用于AI訓練的典型數據格式（盡管FP8似乎也經過了評估），因此可以合理地預期英偉達將通過其下一代Rubin、Rubin Ultra、Feynman和Feynman Ultra GPU來提高這些數據格式的性能。

根據計算，英偉達H100的FP16/BF16的性能相比A100提高了3.2倍，然后B200相比H100性能又提高了2.4倍。當然，實際的訓練性能不僅取決于新GPU的純數學性能，還取決于內存帶寬、模型大小、并行性（軟件優化和互連性能）以及FP32的累積使用。然而，可以肯定地說，英偉達可以通過每一代新一代的GPU將其訓練性能（FP16/BF16格式）提高一倍。

假設英偉達可以通過基于Rubin和下一代的Feynman架構的四代后續AI加速器實現上述性能提升，那么在2029年的某個時候，大約需要65萬個Feynman Ultra GPU才能達到大約50個BF16/FP16 ExaFLOPS。

耗電量巨大

盡管馬斯克的xAI和其他人工智能領導者可能會在未來四五年內獲得50 BF16/FP16 ExaFLOPS用于人工智能訓練，但最大的問題是這樣一個超級AI集群將消耗多少電力？

一個H100 AI加速器功耗大約700W，因此其中5000萬個處理器將消耗35吉瓦（GW），相當于35座核電站的典型發電量，這使得今天為如此龐大的數據中心供電變得不現實。即使是Rubin Ultra的集群也需要大約9.37吉瓦的電力。假設Feynman架構使BF16/FP16的每瓦性能比Robin架構翻了一番，一個50 ExaFLOPS集群仍將需要4.685 GW的電力，這遠遠超過了xAI的Colossus 2數據中心所需的1.4 GW-1.96 GW。這一需求將對美國當前的能源基礎設施提出嚴峻的挑戰。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

xAI將在5年內部署等效5000萬個H100 GPU

日期： 2025-07-25

來源：芯智訊

相關內容