• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 業界動態 > 華為推出 UCM 算法以減少對 HBM 的依賴,據報道將在 9 月開源

    華為推出 UCM 算法以減少對 HBM 的依賴,據報道將在 9 月開源

    作者: 時間:2025-08-13 來源: 收藏

    雖然當地媒體關注減少中國 HBM 對人工智能推理的依賴,但這家科技巨頭在 8 月 12 日發布了 (統一計算內存)——據我的駕駛和證券時報報道,這是一種人工智能推理突破,可大幅降低延遲和成本,同時提高效率。

    值得注意的是,報道表明將在 2025 年 9 月開源 ,首先在 MagicEngine 社區推出,然后貢獻給主流推理引擎,并與 Share Everything 存儲供應商和生態系統合作伙伴分享。

    的變革性功能

    《證券時報》援引數字金融 CEO 曹健的話指出,高延遲和高成本仍然是當今 AI 推理開發面臨的主要挑戰。正如報道所指出的,目前國際領先模型實現了單用戶輸出速度為每秒 200 個 token(5 毫秒延遲),而中國模型通常低于每秒 60 個 token(50-100 毫秒延遲)。

    根據報道,華為將 UCM 描述為一個以 KV(鍵值)緩存技術為核心的 AI 推理加速工具包。該系統據說結合了多種緩存優化算法,以智能管理 AI 處理過程中產生的 KV 緩存內存數據。這種方法擴展了推理上下文窗口,實現了高吞吐量、低延遲的性能,同時降低了每個 token 的推理成本,報道補充道。

    證券時報報道,UCM 根據內存熱模式自動將緩存數據分配到 HBM、DRAM 和 SSD 存儲中。據報道,該系統通過結合多種稀疏注意力算法,優化計算和存儲協調,在長序列場景中提供 2-22 倍更高的每秒令牌數(TPS),同時降低每個令牌的成本。

    另一方面,據報道,華為官員解釋說,在多輪對話和知識搜索應用中,該系統直接訪問之前存儲的數據,而不是重新計算所有內容,將初始響應延遲減少高達90%。

    降低對 HBM 的依賴

    根據 EE Times China 的報道,華為的新技術不僅提高了 AI 推理效率,還可能減少對 HBM 內存的依賴,提升國內 AI 大模型推理性能,并加強中國的 AI 推理生態系統。

    EETimes China 報道,自 2025 年 1 月 2 日起,美國禁止向中國出口 HBM2E 及更高等級的 HBM 芯片。該禁令不僅涵蓋在美國制造的 HBM 芯片,還包括使用美國技術在國外生產的芯片。

    華為在 AI 推理方面的突破并非新事。據報告,該公司已取得多個里程碑,包括與北京大學合作開發的 DeepSeek 開源推理解決方案,以及在其 Ascend 平臺上實現的數項性能提升。此外,華為與科大訊飛的合作伙伴關系取得了顯著成果,使 MoE(專家混合模型)在大規模專家分布方面得以在國產計算基礎設施上實現,推理速度提升三倍,響應延遲減半,報告補充道。



    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 贡觉县| 聂荣县| 长乐市| 潮安县| 垫江县| 紫阳县| 深泽县| 临桂县| 衡水市| 梓潼县| 甘孜| 肇东市| 榕江县| 民和| 湛江市| 贵溪市| 佛学| 龙泉市| 吴江市| 天峨县| 江源县| 虹口区| 日土县| 萍乡市| 宝山区| 壶关县| 察隅县| 武清区| 沐川县| 柯坪县| 涿州市| 平罗县| 巨野县| 福清市| 儋州市| 会东县| 山东省| 当阳市| 博客| 元谋县| 黔西县|