• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

    摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

    作者: 時間:2025-03-05 來源:快科技 收藏

    科研團(tuán)隊近日發(fā)布了一項新的研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式》,使得端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache占用節(jié)省最多82%。

    摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

    近年來,大型語言模型的進(jìn)步,推動了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。

    然而,長時間的交互暴露出兩大顯著問題:

    首先,上下文長度的快速擴(kuò)張因自注意力機制的平方級復(fù)雜度而導(dǎo)致巨大的計算開銷;

    其次,盡管鍵值(KV)緩存技術(shù)能緩解冗余計算,但顯著增加的GPU內(nèi)存需求,導(dǎo)致推理批處理規(guī)模受限,同時GPU利用率低下。

    摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

    為此,提出了Round Attention,以解決這些問題。

    首先,提出以輪次為分析單元研究Attention規(guī)律:

    Round Attention專為多輪對話場景推理需求設(shè)計,以輪次為自然邊界劃分KV緩存。研究發(fā)現(xiàn),輪次粒度的Attention分布存在兩個重要規(guī)律。

    其次,摩爾線程提出了Round Attention推理流水線;

    基于發(fā)現(xiàn)的兩個規(guī)律,將稀疏性從Token級提升至塊級,選取最相關(guān)的塊參與attention計算,減少attention計算耗時,并將不相關(guān)的塊卸載到CPU內(nèi)存,以節(jié)省占用。

    這在保持推理精度的情況下,減少了推理耗時,降低了占用。

    摩爾線程認(rèn)為,輪次塊稀疏性有三大優(yōu)勢:自然邊界的語義完整性、分水嶺層的注意力穩(wěn)定性、端到端的存儲與傳輸優(yōu)化。

    測試顯示,Round Attention的端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎, kv-cache顯存占用則節(jié)省55-82%,并且在主觀評測和客觀評測兩個數(shù)據(jù)集上,模型推理準(zhǔn)確率基本未受影響。

    摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

    摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%


    關(guān)鍵詞: 摩爾線程 顯存 AI

    評論


    相關(guān)推薦

    技術(shù)專區(qū)

    關(guān)閉
    主站蜘蛛池模板: 商城县| 八宿县| 蒲江县| 南木林县| 体育| 泸定县| 买车| 延庆县| 五河县| 扎囊县| 东城区| 平安县| 革吉县| 中宁县| 新源县| 孟津县| 金乡县| 无棣县| 镇巴县| 长泰县| 焦作市| 凤山市| 砀山县| 英山县| 德保县| 岳阳市| 越西县| 聂拉木县| 诸城市| 新安县| 嘉善县| 高雄市| 禄丰县| 滨州市| 海晏县| 兴国县| 罗定市| 凤山市| 西安市| 天等县| 墨脱县|