• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    —— 英特爾軟硬協(xié)同,Day 0適配騰訊開源混元大模型及賦能軟件應(yīng)用
    作者: 時間:2025-08-05 來源:EEPW 收藏
    編者按:騰訊開源混元大模型新發(fā)布,英特爾OpenVINO實現(xiàn)硬件和應(yīng)用同步適配;英特爾 OpenVINO 賦能騰訊混元大模型,實現(xiàn)酷睿Ultra 平臺“Day 0”高效適配;酷睿Ultra平臺Day 0高效適配部署大模型,率先賦能驅(qū)動人生AIGC助手

    近日,正式發(fā)布新一代混元開源大語言模型。憑借在人工智能領(lǐng)域的全棧技術(shù)布局,現(xiàn)已在? 酷睿? Ultra 平臺上完成針對該模型的第零日()部署與性能優(yōu)化。值得一提的是, 依托于OpenVINO? 構(gòu)建的 AI 軟件平臺的可擴展性,助力ISV生態(tài)伙伴率先實現(xiàn)應(yīng)用端 模型適配,大幅加速了新模型的落地進程,彰顯了 “硬件 + 模型 + 生態(tài)” 協(xié)同的強大爆發(fā)力。

    1754361284242136.png

    混元新模型登場:多維度突破,酷睿Ultra平臺適配

    混元宣布開源四款小尺寸模型,參數(shù)分別為 0.5B、1.8B、4B、7B,消費級顯卡即可運行,適用于筆記本電腦、手機、智能座艙、智能家居等低功耗場景。新開源的4 個模型均屬于融合推理模型,具備推理速度快、性價比高的特點,用戶可根據(jù)使用場景靈活選擇模型思考模式——快思考模式提供簡潔、高效的輸出;而慢思考涉及解決復(fù)雜問題,具備更全面的推理步驟。

    這些模型已在英特爾酷睿 Ultra 平臺實現(xiàn)全面適配,其在 CPU、GPU、NPU 三大 AI 運算引擎上都展現(xiàn)了卓越的推理性能表現(xiàn)1。以酷睿 Ultra 2 代 iGPU 平臺為例,7B 參數(shù)量模型在 INT4 精度下,吞吐量達 20.93token/s;0.5B 小尺寸模型在 FP16 精度下吞吐量達 68.92token/s。值得一提的是,英特爾對新模型的 NPU 第零日支持已形成常態(tài)化能力,為不同參數(shù)量模型匹配精準(zhǔn)硬件方案,滿足從個人終端到邊緣設(shè)備的多樣化需求。

    Device

    ?Model

    Precision

    Throughput

    Intel? Core? Ultra 7 258V(iGPU)

    Hunyuan-0.5B

    FP16

    68.92

    Intel? Core?   Ultra 7 258V(NPU)

    Hunyuan-0.5B

    FP16

    48.44

    Intel? Core? Ultra 7 258V(iGPU)

    Hunyuan-7B

    INT4-MIXED-ASYM

    20.93

    Intel? Core?   Ultra 7 258V(NPU)

    Hunyuan-7B

    INT4-MIXED-CW-SYM

    15.02

    OpenVINO:新模型快速落地的 “關(guān)鍵引擎”

    作為英特爾推出的開源深度學(xué)習(xí)工具套件,OpenVINO 以 “性能優(yōu)化 + 跨平臺部署” 為核心優(yōu)勢,可充分釋放英特爾硬件資源潛力,廣泛應(yīng)用于 AI PC、邊緣 AI 等場景。其核心價值在于能將深度學(xué)習(xí)模型的推理性能最大化,同時實現(xiàn)跨 CPU、GPU、NPU 等異構(gòu)硬件的無縫部署。

    目前,OpenVINO已支持超過 900 個人工智能模型,涵蓋生成式 AI 領(lǐng)域主流模型結(jié)構(gòu)與算子庫。這樣的模型支持體系,使其能在新模型發(fā)布的Day 0,即完成英特爾硬件平臺的適配部署。此次混元模型的快速落地,正是 OpenVINO 技術(shù)實力的直接體現(xiàn) —— 通過其優(yōu)化能力,混元模型在酷睿 Ultra 平臺的性能得到充分釋放,為用戶帶來即發(fā)即用的 AI 體驗。

    生態(tài)共創(chuàng):AI技術(shù)到應(yīng)用的 “最后一公里” 加速

    生態(tài)合作是英特爾 AI 戰(zhàn)略的核心支柱,驅(qū)動人生作為其長期合作伙伴,專注于互聯(lián)網(wǎng)客戶端軟件研發(fā)及運營,本著“以用戶為中心,以技術(shù)為根本,以開放為原則”的理念,長期致力于技術(shù)研發(fā)和技術(shù)創(chuàng)新,為用戶提供優(yōu)質(zhì)的服務(wù)。其 AIGC 助手軟件,實現(xiàn)本地部署,離線使用,支持文字輸入、語音轉(zhuǎn)譯,將大模型裝進背包,可隨時隨地與它進行智能對話,還能讓它幫忙解讀文檔,編撰方案。

    該應(yīng)用采用 OpenVINO推理框架,借助其快速適配能力,在混元模型發(fā)布當(dāng)日即完成應(yīng)用層適配,成為首批支持新模型的應(yīng)用之一。

    目前,驅(qū)動人生 AIGC 助手、英特爾AIPC應(yīng)用專區(qū)和多家OEM 應(yīng)用商店的 AI PC專區(qū)均已上線,搭載混元模型的新版本也將在近期推出,用戶可第一時間體驗更智能的交互與服務(wù)。這種 “模型發(fā)布 - 硬件適配 - 應(yīng)用落地” 的全鏈條第零日響應(yīng),正是英特爾生態(tài)協(xié)同能力的生動寫照。

    AI 的發(fā)展離不開模型創(chuàng)新與軟硬件生態(tài)協(xié)同 —— 模型如同燃料,生態(tài)則是驅(qū)動前進的引擎。英特爾通過硬件平臺、軟件工具與生態(tài)網(wǎng)絡(luò)的深度協(xié)同,實現(xiàn)對新模型的第零日適配,不僅加速了技術(shù)到應(yīng)用的轉(zhuǎn)化,更推動著整個 AI 產(chǎn)業(yè)的高效創(chuàng)新。未來,英特爾將持續(xù)深化與合作伙伴的協(xié)同,讓 AI 創(chuàng)新更快走進千行百業(yè)與大眾生活。

    快速上手指南

    第一步,環(huán)境準(zhǔn)備

    通過以下命令可以搭建基于Python的模型部署環(huán)境。

    1754450086121302.png

     該示例在以下環(huán)境中已得到驗證:

    ●   硬件環(huán)境:

    o   Intel? Core? Ultra 7 258V

    §   iGPU Driver:32.0.101.6972

    §   NPU Driver:32.0.100.4181

    §   Memory:32GB

    ●   操作系統(tǒng):

    o   Windows 11 24H2 (26100.4061)

    ●   OpenVINO版本:

    o   openvino 2025.2.0

    o   openvino-genai 2025.2.0.0

    o   openvino-tokenizers 2025.2.0.0

    ●   Transformers版本:

    第二步,模型下載和轉(zhuǎn)換

    在部署模型之前,我們首先需要將原始的PyTorch模型轉(zhuǎn)換為OpenVINOTM的IR靜態(tài)圖格式,并對其進行壓縮,以實現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉(zhuǎn)換和權(quán)重量化任務(wù):

    1754450126783014.png

    開發(fā)者可以根據(jù)模型的輸出結(jié)果,調(diào)整其中的量化參數(shù),包括:

    ●   --model: 為模型在HuggingFace上的model id,這里我們也提前下載原始模型,并將model id替換為原始模型的本地路徑,針對國內(nèi)開發(fā)者,推薦使用ModelScope魔搭社區(qū)作為原始模型的下載渠道,具體加載方式可以參考ModelScope官方指南。

    ●   --weight-format:量化精度,可以選擇fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64

    ●   --group-size:權(quán)重里共享量化參數(shù)的通道數(shù)量

    ●   --ratio:int4/int8權(quán)重比例,默認(rèn)為1.0,0.6表示60%的權(quán)重以int4表,40%以int8表示

    ●   --sym:是否開啟對稱量化

    此外我們建議使用以下參數(shù)對運行在NPU上的模型進行量化,以達到性能和精度的平衡。

    1754450166202563.png

     這里的--backup-precision是指混合量化精度中,8bit參數(shù)的量化策略。

     第三步,模型部署

    目前我們推薦是用openvino-genai來部署大語言以及生成式AI任務(wù),它同時支持Python和C++兩種編程語言,安裝容量不到200MB,支持流式輸出以及多種采樣策略。

    ●   GenAI API部署示例

    1754450232215810.png

    image.png

    其中,'model_dir'為OpenVINOTM IR格式的模型文件夾路徑,'device'為模型部署設(shè)備,支持CPU,GPU以及NPU。此外,openvino-genai提供了chat模式的構(gòu)建方法,通過聲明pipe.start_chat()以及pipe.finish_chat(),多輪聊天中的歷史數(shù)據(jù)將被以kvcache的形態(tài),在內(nèi)存中進行管理,從而提升運行效率。

    開發(fā)者可以通過該該示例的中方法調(diào)整chat template,以關(guān)閉和開啟thinking模式,具體方式可以參考官方文檔(https://huggingface.co/tencent/Hunyuan-4B-Instruct)。由于目前OpenVINOTM Tokenizer還沒有完全支持Hunyuan-7B-Instruct模型默認(rèn)的chat template格式,因此我們需要手動替換原始的chat template,對其進行簡化,具體方法如下:

    1754450300978190.png

    chat模式輸出結(jié)果示例:

    1754361318493233.png


    評論


    相關(guān)推薦

    技術(shù)專區(qū)

    關(guān)閉
    主站蜘蛛池模板: 龙陵县| 隆化县| 刚察县| 朝阳县| 宝山区| 大埔区| 安徽省| 太和县| 葵青区| 嫩江县| 贵溪市| 延安市| 宝丰县| 鞍山市| 闻喜县| 盐边县| 宣威市| 东阳市| 晋江市| 达日县| 屏东市| 芦溪县| 平度市| 龙海市| 阳谷县| 晋宁县| 浠水县| 正镶白旗| 科技| 台北县| 东莞市| 伊宁市| 信宜市| 庆城县| 博罗县| 汝南县| 通许县| 普陀区| 阿拉善盟| 庆城县| 灌阳县|