華為推出 UCM 算法以減少對 HBM 的依賴，據報道將在 9 月開源

作者：時間：2025-08-13 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

雖然當地媒體關注華為減少中國 HBM 對人工智能推理的依賴，但這家科技巨頭在 8 月 12 日發布了 UCM（統一計算內存）——據我的駕駛和證券時報報道，這是一種人工智能推理突破，可大幅降低延遲和成本，同時提高效率。

值得注意的是，報道表明華為將在 2025 年 9 月開源 UCM，首先在 MagicEngine 社區推出，然后貢獻給主流推理引擎，并與 Share Everything 存儲供應商和生態系統合作伙伴分享。

UCM 的變革性功能

《證券時報》援引華為數字金融 CEO 曹健的話指出，高延遲和高成本仍然是當今 AI 推理開發面臨的主要挑戰。正如報道所指出的，目前國際領先模型實現了單用戶輸出速度為每秒 200 個 token（5 毫秒延遲），而中國模型通常低于每秒 60 個 token（50-100 毫秒延遲）。

根據報道，華為將 UCM 描述為一個以 KV（鍵值）緩存技術為核心的 AI 推理加速工具包。該系統據說結合了多種緩存優化算法，以智能管理 AI 處理過程中產生的 KV 緩存內存數據。這種方法擴展了推理上下文窗口，實現了高吞吐量、低延遲的性能，同時降低了每個 token 的推理成本，報道補充道。

證券時報報道，UCM 根據內存熱模式自動將緩存數據分配到 HBM、DRAM 和 SSD 存儲中。據報道，該系統通過結合多種稀疏注意力算法，優化計算和存儲協調，在長序列場景中提供 2-22 倍更高的每秒令牌數（TPS），同時降低每個令牌的成本。

另一方面，據報道，華為官員解釋說，在多輪對話和知識搜索應用中，該系統直接訪問之前存儲的數據，而不是重新計算所有內容，將初始響應延遲減少高達90%。

降低對 HBM 的依賴

根據 EE Times China 的報道，華為的新技術不僅提高了 AI 推理效率，還可能減少對 HBM 內存的依賴，提升國內 AI 大模型推理性能，并加強中國的 AI 推理生態系統。

EETimes China 報道，自 2025 年 1 月 2 日起，美國禁止向中國出口 HBM2E 及更高等級的 HBM 芯片。該禁令不僅涵蓋在美國制造的 HBM 芯片，還包括使用美國技術在國外生產的芯片。

華為在 AI 推理方面的突破并非新事。據報告，該公司已取得多個里程碑，包括與北京大學合作開發的 DeepSeek 開源推理解決方案，以及在其 Ascend 平臺上實現的數項性能提升。此外，華為與科大訊飛的合作伙伴關系取得了顯著成果，使 MoE（專家混合模型）在大規模專家分布方面得以在國產計算基礎設施上實現，推理速度提升三倍，響應延遲減半，報告補充道。

新聞中心

華為推出 UCM 算法以減少對 HBM 的依賴，據報道將在 9 月開源

評論

相關推薦

技術專區