8月14日消息,據英國《金融時報》報道,中國人工智能技術公司 DeepSeek 在未能使用華為芯片訓練其新模型后,推遲了新模型DeepSeek R2的發布。
據三位知情人士透露,在今年 1 月份發布DeepSeek R1 型號后,當局鼓勵 DeepSeek 采用華為的 Ascend AI芯片,以替代使用英偉達(Nvidia)的AI系統。
但知情人士稱,這家中國初創公司在使用 Ascend 芯片進行 R2 訓練過程中遇到了持續存在的技術問題,促使它被迫繼續使用原有的英偉達的AI芯片進行訓練,使用華為AI芯片進行推理。
一位知情人士表示,這些問題是R2的發布時間從 5 月份開始推遲的主要原因,導致其輸給了競爭對手。
訓練涉及模型從大型數據集中學習,而推理是指使用經過訓練的模型進行預測或生成響應(例如聊天機器人查詢)的步驟。
業內人士表示,與英偉達成熟的AI產品相比,國產AI芯片存在穩定性問題、芯片間連接速度較慢和軟件生態上的劣勢。
據兩名人士透露,華為派出工程師團隊前往 DeepSeek 的辦公室,幫助該公司使用其 AI 芯片開發 R2 模型。然而,知情人士表示,盡管有華為團隊在現場支持,但 DeepSeek R2模型仍無法在 Ascend 芯片上成功進行訓練。
知情人士稱,DeepSeek仍在與華為合作,使該模型與Ascend兼容進行推理。
他們表示,創始人梁文峰在內部表示,他對 R2 的進展不滿意,并一直在推動花更多時間構建一個能夠維持公司在人工智能領域的領先地位的先進模型。
另一位人士補充說,由于其更新模型的數據標記時間長于預期,R2 的發布也被推遲。不過最新的消息稱,該模型最快可能在未來幾周內發布。
“模型是可以輕松更換的商品,”美國加州大學伯克利分校的人工智能研究員 Ritwik Gupta 說。“很多開發者都在使用阿里巴巴的Qwen3,它功能強大且靈活。”
Gupta 指出,Qwen3 采用了 DeepSeek 的核心概念,例如其訓練算法,使模型能夠進行推理,但使用起來更加高效。
跟蹤華為人工智能生態系統的古普塔表示,該公司在使用 Ascend 進行訓練方面面臨著“成長的煩惱”,盡管他預計這位中國國家冠軍最終會適應。
“僅僅因為我們今天沒有看到在華為上訓練的領先模型,并不意味著它不會在未來發生。這是時間問題,“他說。
英偉達是一家處于中國和美國地緣政治斗爭中心的AI芯片商,最近同意向美國政府提供在中國的15%的銷售收入分成,以恢復向中國銷售其 H20 芯片。但在這同時,中國正在要求英偉達配合調查其芯片是否存在“安全問題”。