• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 博客專欄

    EEPW首頁 > 博客 > LLM 中評價(jià)指標(biāo)與訓(xùn)練概要介紹

    LLM 中評價(jià)指標(biāo)與訓(xùn)練概要介紹

    發(fā)布人:地平線開發(fā)者 時(shí)間:2025-08-24 來源:工程師 發(fā)布文章

    在【LLM】LLM 中增量解碼與模型推理解讀一文中對 LLM 常見名詞進(jìn)行了介紹,本文會對 LLM 中評價(jià)指標(biāo)與訓(xùn)練概要進(jìn)行介紹,本文并未介紹訓(xùn)練實(shí)操細(xì)節(jié),未來有機(jī)會再了解~

    一、LLM 如何停止輸出

    在看 LLM 評價(jià)指標(biāo)前,先看看 LLM 如何停止輸出。

    大模型常通過以下幾種策略控制生成終止:

    1. 結(jié)束符號(EOS Token)

    模型生成特殊終止符(如 DeepSeek R1 MoE 中 ID 為 1 的 token)表示回答完成。

    ...在物理學(xué)領(lǐng)域做出了革命性貢獻(xiàn)。[EOS]
    1. 最大長度限制 預(yù)設(shè)生成 token 上限(常見值:512/1024/2048),防止無限生成,保障系統(tǒng)資源安全。

    2. 停止詞 / 序列觸發(fā) 設(shè)置 “\n\n”“###” 等符號為停止信號,強(qiáng)制結(jié)束生成(適用于格式控制)。

    3. 內(nèi)容智能判斷

      1. 重復(fù)檢測:識別循環(huán)或冗余內(nèi)容時(shí)自動終止。

      2. 語義完整性:當(dāng)回答覆蓋查詢所有維度(如時(shí)間、影響)時(shí)停止。

    停止機(jī)制建議組合使用(如 EOS + 最大長度),確保生成既完整又可控。

    綜合來看,Decode 階段的循環(huán)機(jī)制是大模型實(shí)現(xiàn)長文本生成的核心:

    • 效率優(yōu)化:通過 KV 緩存復(fù)用大幅降低計(jì)算成本;

    • 可控生成:多維度停止策略平衡輸出質(zhì)量與資源消耗;

    • 語義連貫:自回歸模式確保上下文邏輯銜接緊密。

    二、LLM 評價(jià)指標(biāo)

    常見 LLM 評價(jià)指標(biāo)如下:

    Description

    三、LLM 訓(xùn)練概要

    本節(jié)主要參考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526

    1. 數(shù)據(jù)準(zhǔn)備:喂給模型“知識”

      • 收集數(shù)據(jù):從互聯(lián)網(wǎng)、書籍、論文等獲取海量文本(如英文維基百科+書籍+網(wǎng)頁)。

      • 清洗數(shù)據(jù):過濾垃圾、重復(fù)內(nèi)容、有害信息,保留高質(zhì)量文本。

      • 分詞(Tokenization):把文本拆成“詞語片段”(如用 Byte-Pair Encoding 或 SentencePiece)。

    2. 模型設(shè)計(jì):搭建“大腦”結(jié)構(gòu)

      • 選擇架構(gòu):通常用 Transformer 解碼器堆疊(如 GPT 系列)。

      • 確定參數(shù)量:比如 70 億、150 億參數(shù)(參數(shù)越多,模型越強(qiáng),但計(jì)算成本越高)。

    3. 預(yù)訓(xùn)練(Pre-training):自主學(xué)習(xí)語言規(guī)律

      • 輸入一段文本 → 模型預(yù)測下一個(gè)詞 → 計(jì)算損失(預(yù)測誤差) → 反向傳播更新參數(shù)。

      • 重復(fù)數(shù)萬億次(用 GPU/TPU 集群加速),直到模型學(xué)會語言規(guī)律。

      • 自回歸(AutoRegressive):根據(jù)上文預(yù)測下一個(gè)詞(如 GPT 系列)。

      • 掩碼預(yù)測(Masked Modeling):隨機(jī)遮蔽部分詞,讓模型填補(bǔ)空缺(如 BERT)。

      • 任務(wù)目標(biāo):通過自監(jiān)督學(xué)習(xí)預(yù)測文本中的缺失部分(如遮蔽語言建模,Masked Language Modeling)

      • 訓(xùn)練方法:

    4. 微調(diào)(Fine-tuning):定向優(yōu)化能力 場景化訓(xùn)練:用特定任務(wù)的數(shù)據(jù)(如客服對話、醫(yī)療問答)進(jìn)一步優(yōu)化模型。

      • 監(jiān)督微調(diào)(SFT):人工標(biāo)注的高質(zhì)量問答對,教模型生成更準(zhǔn)確的回答。

      • 強(qiáng)化學(xué)習(xí)(RLHF):讓人類對模型輸出打分,通過獎(jiǎng)勵(lì)機(jī)制優(yōu)化(如 ChatGPT 的訓(xùn)練方法)。

    5. 評估與部署:測試和落地

      • 評估指標(biāo):用困惑度(Perplexity)、準(zhǔn)確率等指標(biāo)測試模型性能。

      • 部署上線:壓縮模型(如量化、剪枝),部署到服務(wù)器供用戶調(diào)用。

    四、LLM 中學(xué)習(xí)策略

    在上面的訓(xùn)練過程中,提到了“自監(jiān)督學(xué)習(xí)"、"強(qiáng)化學(xué)習(xí)”這幾個(gè)概念。這些都屬于大模型訓(xùn)練過程中的學(xué)習(xí)策略或者叫學(xué)習(xí)范式,以下是對不同學(xué)習(xí)策略的總結(jié)和對比:

    Description

    • 監(jiān)督學(xué)習(xí)的標(biāo)簽是人工標(biāo)注的,這是 CNN 這些架構(gòu)訓(xùn)練模型或算法很常見的方法。標(biāo)注的意思就是我們喂給模型的數(shù)據(jù)會被人工提前標(biāo)注出特征點(diǎn),比如我們會給很多圖片中的汽車做出標(biāo)記,目的是告訴大模型我們打標(biāo)簽的這些圖形就是汽車,讓大模型記住它。

    • 強(qiáng)化學(xué)習(xí)不需要大量的人工標(biāo)注,只是需要設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)好獎(jiǎng)勵(lì)規(guī)則,當(dāng)模型給出的結(jié)果是接近目標(biāo)值的,我們就給一個(gè)正反饋或者高的分?jǐn)?shù)。

    五、常見 LLM 模型

    常見 LLM 模型如下表

    Description

    六、LLM 的挑戰(zhàn)與展望
    6.1 挑戰(zhàn)
    • 幻覺現(xiàn)象(Hallucination):生成看似合理但事實(shí)錯(cuò)誤的內(nèi)容。

    • 推理成本高:內(nèi)存與計(jì)算資源消耗大,部署成本高昂。

    • 推理速度慢:長文本響應(yīng)延遲顯著影響用戶體驗(yàn)。

    • 數(shù)據(jù)安全與偏見問題:訓(xùn)練數(shù)據(jù)中可能包含歧視或敏感信息。

    6.2 展望

    LLM 目前已用于多個(gè)場景,例如:

    • 文本生成:自動撰寫新聞、故事、詩歌。

    • 翻譯系統(tǒng):多語言互譯,甚至語音到文本。

    • 情緒分析:用于品牌情感監(jiān)測、影評判斷。

    • 對話機(jī)器人:如 ChatGPT,提供自然流暢的對話能力。

    • 代碼生成:輔助編程任務(wù),生成/解釋代碼。

    近年來也發(fā)展出支持圖像、語音、視頻等多模態(tài)輸入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究學(xué)習(xí)的地方非常多。

    后續(xù)會轉(zhuǎn)到 VLM 的學(xué)習(xí)~


    *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



    相關(guān)推薦

    技術(shù)專區(qū)

    關(guān)閉
    主站蜘蛛池模板: 麻阳| 格尔木市| 石景山区| 独山县| 山西省| 岚皋县| 瓦房店市| 开平市| 亳州市| 西青区| 罗定市| 贵德县| 阿拉善左旗| 南汇区| 多伦县| 黄冈市| 普定县| 江陵县| 元谋县| 汉源县| 北京市| 内乡县| 余干县| 元阳县| 噶尔县| 古交市| 芒康县| 郸城县| 乳源| 新昌县| 阿图什市| 柳江县| 芷江| 湘乡市| 玉树县| 荆门市| 桦川县| 乌鲁木齐县| 克东县| 稻城县| 启东市|