華為推出 UCM 算法以減少對 HBM 的依賴,據報道將在 9 月開源
雖然當地媒體關注華為減少中國 HBM 對人工智能推理的依賴,但這家科技巨頭在 8 月 12 日發布了 UCM(統一計算內存)——據我的駕駛和證券時報報道,這是一種人工智能推理突破,可大幅降低延遲和成本,同時提高效率。
值得注意的是,報道表明華為將在 2025 年 9 月開源 UCM,首先在 MagicEngine 社區推出,然后貢獻給主流推理引擎,并與 Share Everything 存儲供應商和生態系統合作伙伴分享。
UCM 的變革性功能
《證券時報》援引華為數字金融 CEO 曹健的話指出,高延遲和高成本仍然是當今 AI 推理開發面臨的主要挑戰。正如報道所指出的,目前國際領先模型實現了單用戶輸出速度為每秒 200 個 token(5 毫秒延遲),而中國模型通常低于每秒 60 個 token(50-100 毫秒延遲)。
根據報道,華為將 UCM 描述為一個以 KV(鍵值)緩存技術為核心的 AI 推理加速工具包。該系統據說結合了多種緩存優化算法,以智能管理 AI 處理過程中產生的 KV 緩存內存數據。這種方法擴展了推理上下文窗口,實現了高吞吐量、低延遲的性能,同時降低了每個 token 的推理成本,報道補充道。
證券時報報道,UCM 根據內存熱模式自動將緩存數據分配到 HBM、DRAM 和 SSD 存儲中。據報道,該系統通過結合多種稀疏注意力算法,優化計算和存儲協調,在長序列場景中提供 2-22 倍更高的每秒令牌數(TPS),同時降低每個令牌的成本。
另一方面,據報道,華為官員解釋說,在多輪對話和知識搜索應用中,該系統直接訪問之前存儲的數據,而不是重新計算所有內容,將初始響應延遲減少高達90%。
降低對 HBM 的依賴
根據 EE Times China 的報道,華為的新技術不僅提高了 AI 推理效率,還可能減少對 HBM 內存的依賴,提升國內 AI 大模型推理性能,并加強中國的 AI 推理生態系統。
EETimes China 報道,自 2025 年 1 月 2 日起,美國禁止向中國出口 HBM2E 及更高等級的 HBM 芯片。該禁令不僅涵蓋在美國制造的 HBM 芯片,還包括使用美國技術在國外生產的芯片。
華為在 AI 推理方面的突破并非新事。據報告,該公司已取得多個里程碑,包括與北京大學合作開發的 DeepSeek 開源推理解決方案,以及在其 Ascend 平臺上實現的數項性能提升。此外,華為與科大訊飛的合作伙伴關系取得了顯著成果,使 MoE(專家混合模型)在大規模專家分布方面得以在國產計算基礎設施上實現,推理速度提升三倍,響應延遲減半,報告補充道。
評論