日前,Nvidia 發布了其 CUDA 工具包的最新更新,Ver. 13 引入了重大的性能更新。
CUDA 13 版本特性概述
CUDA 13 版本引入了全新 CPU 資源支持、統一 Arm 平臺架構,并新增了多個操作系統適配。
英偉達已發布 CUDA 工具包的最新更新版本,13 版本帶來了顯著的性能升級。
CUDA Toolkit 版本 13 現在支持最新的 Blackwell GPU 系列
升級后的工具包增強了程序員使用便利性、兼容性及語言加速能力。13 版本還首次在英偉達生態中引入基于分塊的編程模型,進一步降低開發者工作量。
什么是 CUDA?
圖形處理器(GPU)針對含多個小型處理核心的高度并行運算進行了優化,但其本身難以直接用于非圖形計算場景的編程。CUDA 是英偉達開發的計算環境,支持圖形渲染以外的高性能計算應用。該平臺作為 GPU 與通用應用程序之間的中間層,可賦能需要并行運算的程序,同時包含豐富的庫、編譯器指令及語言適配功能。
AI 大語言模型開發與應用、科學分析及密碼學等復雜場景,均能從 GPU 及多 GPU 系統提供的大規模并行計算中獲益。CUDA 的設計目標即讓廣泛的應用開發者能夠利用這些計算場景。
13 版本關鍵更新
CUDA 13 新增對英偉達最新 Blackwell GPU、Jetson Thor 高級 AI 與機器人 GPU,以及 DGX Spark “桌面超級計算機” 的支持。其支持范圍覆蓋至當前所有架構的英偉達 GPU(不再支持 7.5 之前的架構),并針對 Blackwell 架構更新了 32 字節對齊的向量類型以提升性能。
該工具包統一了 Arm
平臺的開發者體驗,提供覆蓋服務器與嵌入式應用的單一工具鏈,同時更新了操作系統與平臺支持,包括紅帽企業 Linux 10、Debian
12.10、Fedora 42,以及 Rocky Linux 10.0 和 9.6。此外,NVIDIA Nsight
開發工具得到更新以優化依賴檢查,CUDA 數學庫(如 cuBLAS、cuSPARSE、cuSOLVER 及 cuFFT)也完成升級。
NVCC 編譯器現支持 GCC 15 與 Clang 20,并引入新語言特性以改善應用二進制接口(ABI)集成。用戶還將獲得加速的 Python 核心與開發者友好的封裝方式,Wheel 包與 CUDA 核心計算庫(CCCL)也優化了庫結構。
統一服務器與嵌入式開發工具鏈
在 13 版本之前,CUDA 幾乎可視為兩個獨立產品:開發者需分別安裝服務器級項目與嵌入式項目的工具鏈。兩者語法與操作雖高度相似,但針對服務器與嵌入式目標的庫、頭文件及其他開發組件存在差異。
13 版本打破了這一限制:現在單一工具鏈可同時適配兩種目標場景,生成的二進制文件會針對開發者使用的 GPU 自動優化,無需因部署場景切換工具鏈。
新版本還整合了與 GPU 部署配套的 Arm 代碼 ——Arm 二進制文件兼容所有 Arm 目標設備(僅 Orin sm_87 除外)及仿真平臺,而舊版本需要為仿真與部署使用不同工具鏈。
基于分塊的并行編程
分塊編程(或基于數組的編程)支持對數組或矩陣中的所有數據點同時執行指令。并行編程常需對多個數據塊同時執行相同操作,而分塊編程可自動為開發者處理并行邏輯:只需編寫單個函數,底層智能層會處理所有低級細節以實現并行運算。
比較塊級編程與基于圖塊的編程。
編譯器與運行時系統負責在線程與核心間分配負載,該抽象層在大幅降低編碼負擔的同時實現了性能最大化。
免費獲取
英偉達 CUDA 工具包 13 版本現已開放免費下載,支持 Linux x86_64 與 arm64-sbsa 多發行版,以及 Windows 10、11、Server 2022 和 Server 2025 的 x86_64 平臺。