LLM 中評價(jià)指標(biāo)與訓(xùn)練概要介紹

發(fā)布人：地平線開發(fā)者時(shí)間：2025-08-24 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在【LLM】LLM 中增量解碼與模型推理解讀一文中對 LLM 常見名詞進(jìn)行了介紹，本文會對 LLM 中評價(jià)指標(biāo)與訓(xùn)練概要進(jìn)行介紹，本文并未介紹訓(xùn)練實(shí)操細(xì)節(jié)，未來有機(jī)會再了解～

一、LLM 如何停止輸出

在看 LLM 評價(jià)指標(biāo)前，先看看 LLM 如何停止輸出。

大模型常通過以下幾種策略控制生成終止：

結(jié)束符號（EOS Token）

模型生成特殊終止符（如 DeepSeek R1 MoE 中 ID 為 1 的 token）表示回答完成。

...在物理學(xué)領(lǐng)域做出了革命性貢獻(xiàn)。[EOS]

最大長度限制預(yù)設(shè)生成 token 上限（常見值：512/1024/2048），防止無限生成，保障系統(tǒng)資源安全。
停止詞 / 序列觸發(fā) 設(shè)置 “\n\n”“###” 等符號為停止信號，強(qiáng)制結(jié)束生成（適用于格式控制）。
內(nèi)容智能判斷

重復(fù)檢測：識別循環(huán)或冗余內(nèi)容時(shí)自動終止。
語義完整性：當(dāng)回答覆蓋查詢所有維度（如時(shí)間、影響）時(shí)停止。

停止機(jī)制建議組合使用（如 EOS + 最大長度），確保生成既完整又可控。

綜合來看，Decode 階段的循環(huán)機(jī)制是大模型實(shí)現(xiàn)長文本生成的核心：

效率優(yōu)化：通過 KV 緩存復(fù)用大幅降低計(jì)算成本；
可控生成：多維度停止策略平衡輸出質(zhì)量與資源消耗；
語義連貫：自回歸模式確保上下文邏輯銜接緊密。

二、LLM 評價(jià)指標(biāo)

常見 LLM 評價(jià)指標(biāo)如下：

Description

三、LLM 訓(xùn)練概要

本節(jié)主要參考： https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526

數(shù)據(jù)準(zhǔn)備：喂給模型“知識”

收集數(shù)據(jù)：從互聯(lián)網(wǎng)、書籍、論文等獲取海量文本（如英文維基百科+書籍+網(wǎng)頁）。
清洗數(shù)據(jù)：過濾垃圾、重復(fù)內(nèi)容、有害信息，保留高質(zhì)量文本。
分詞（Tokenization）：把文本拆成“詞語片段”（如用 Byte-Pair Encoding 或 SentencePiece）。

模型設(shè)計(jì)：搭建“大腦”結(jié)構(gòu)

選擇架構(gòu)：通常用 Transformer 解碼器堆疊（如 GPT 系列）。
確定參數(shù)量：比如 70 億、150 億參數(shù)（參數(shù)越多，模型越強(qiáng)，但計(jì)算成本越高）。

預(yù)訓(xùn)練（Pre-training）：自主學(xué)習(xí)語言規(guī)律

輸入一段文本 → 模型預(yù)測下一個(gè)詞 → 計(jì)算損失（預(yù)測誤差） → 反向傳播更新參數(shù)。
重復(fù)數(shù)萬億次（用 GPU/TPU 集群加速），直到模型學(xué)會語言規(guī)律。

自回歸（AutoRegressive）：根據(jù)上文預(yù)測下一個(gè)詞（如 GPT 系列）。
掩碼預(yù)測（Masked Modeling）：隨機(jī)遮蔽部分詞，讓模型填補(bǔ)空缺（如 BERT）。

任務(wù)目標(biāo)：通過自監(jiān)督學(xué)習(xí)預(yù)測文本中的缺失部分（如遮蔽語言建模，Masked Language Modeling）
訓(xùn)練方法：

微調(diào)（Fine-tuning）：定向優(yōu)化能力場景化訓(xùn)練：用特定任務(wù)的數(shù)據(jù)（如客服對話、醫(yī)療問答）進(jìn)一步優(yōu)化模型。

監(jiān)督微調(diào)（SFT）：人工標(biāo)注的高質(zhì)量問答對，教模型生成更準(zhǔn)確的回答。
強(qiáng)化學(xué)習(xí)（RLHF）：讓人類對模型輸出打分，通過獎(jiǎng)勵(lì)機(jī)制優(yōu)化（如 ChatGPT 的訓(xùn)練方法）。

評估與部署：測試和落地

評估指標(biāo)：用困惑度（Perplexity）、準(zhǔn)確率等指標(biāo)測試模型性能。
部署上線：壓縮模型（如量化、剪枝），部署到服務(wù)器供用戶調(diào)用。

四、LLM 中學(xué)習(xí)策略

在上面的訓(xùn)練過程中，提到了“自監(jiān)督學(xué)習(xí)"、"強(qiáng)化學(xué)習(xí)”這幾個(gè)概念。這些都屬于大模型訓(xùn)練過程中的學(xué)習(xí)策略或者叫學(xué)習(xí)范式，以下是對不同學(xué)習(xí)策略的總結(jié)和對比：

Description

監(jiān)督學(xué)習(xí)的標(biāo)簽是人工標(biāo)注的，這是 CNN 這些架構(gòu)訓(xùn)練模型或算法很常見的方法。標(biāo)注的意思就是我們喂給模型的數(shù)據(jù)會被人工提前標(biāo)注出特征點(diǎn)，比如我們會給很多圖片中的汽車做出標(biāo)記，目的是告訴大模型我們打標(biāo)簽的這些圖形就是汽車，讓大模型記住它。
強(qiáng)化學(xué)習(xí)不需要大量的人工標(biāo)注，只是需要設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù)，設(shè)計(jì)好獎(jiǎng)勵(lì)規(guī)則，當(dāng)模型給出的結(jié)果是接近目標(biāo)值的，我們就給一個(gè)正反饋或者高的分?jǐn)?shù)。

五、常見 LLM 模型

常見 LLM 模型如下表

Description