OpenVINO? 2025.1 正式發布！

作者：武卓時間：2025-04-17 來源：OpenVINO 中文社區

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

我們很高興地宣布 OpenVINO? 2025 的最新版本正式發布！本次更新帶來了來自工程團隊的更多增強功能和新特性。每一次發布，我們都在不斷適應日新月異的 AI 發展趨勢，迎接層出不窮的新機遇與復雜挑戰。在此次版本中，我們重點增強了新模型的覆蓋和實際應用場景的支持，同時在性能優化上也進行了深度打磨，幫助你的 AI 解決方案運行得更快、更高效。

本文引用地址：http://www.czjhyjcfj.com/article/202504/469504.htm

新模型和應用場景

在 2025.1 版本中，我們新增了以下模型的支持： Phi-4 Mini、Jina CLIP v1 和 BCE Embedding Base v1。其中，Phi-4 Mini 來自微軟最新發布的開源小模型 Phi 系列。你可以在 GitHub 上嘗試這個模型用它構建 LLM 聊天機器人或探索其他眾多 LLM 模型。我們也非常高興地宣布支持 Jina CLIP v1，這是一種多模態 AI 模型，可連接圖像與文本數據，廣泛應用于視覺搜索、多模態問答及內容生成等場景。我們在 GitHub 上提供了新的交互式示例供開發者上手體驗。下圖展示了該模型的輸出效果：

（https://github.com/openvinotoolkit/openvino_notebooks/tree/0284702fb1c15ac768dd25b72cd824fb79ace4d6/notebooks/llm-chatbot）

（https://github.com/openvinotoolkit/openvino_notebooks/tree/442edcdf618126dd966eed5c687455edba332257/notebooks/jina-clip）

圖片1: 使用 Jina CLIP 以及 OpenVINO? 的 CLIP 模型

（https://github.com/openvinotoolkit/openvino_notebooks/tree/442edcdf618126dd966eed5c687455edba332257/notebooks/jina-clip）

在上一版本中，我們預覽發布了 OpenVINO? GenAI 圖像到圖像（image-to-image）轉換與修復（inpainting）功能的支持。本次更新，這兩項功能已全面支持，你可以通過 OpenVINO? 快速部署如 Flux.1 和 Stable Diffusion v3 等圖像生成模型的端到端流程。

OpenVINO? 模型服務器（OVMS）現已支持視覺語言模型（VLMs），如 Qwen2-VL、Phi-3.5-Vision 和 InternVL2。借此你可以在對話場景中發送圖像進行推理，就像處理 LLM 一樣。我們提供了連續批處理（continuous batching）下 VLM 部署的演示示例。此外，現在你還可以使用 OVMS 將 LLM 與 VLM 模型部署到 NPU 加速器上，在 AI PC 上實現高能效的低并發應用。我們提供了在 Docker 與裸機環境下部署 NPU 上 LLM 與 NPU 上 VLM 的完整示例代碼。

（https://github.com/openvinotoolkit/model_server/tree/main/demos/continuous_batching/vlm）

（https://github.com/openvinotoolkit/model_server/tree/main/demos/llm_npu）

（https://github.com/openvinotoolkit/model_server/tree/main/demos/vlm_npu）

圖2：使用 OpenVINO? GenAI Notebook 生成不同強度的圖像到圖像輸出示例

（https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/image-to-image-genai/image-to-image-genai.ipynb）

性能提升

我們的開發團隊也在英特爾? 酷睿? Ultra 200H 系列處理器上進一步優化了 LLM 性能。與上一版 2025.0 相比，在 2025.1 版本中 GPU 上的第二個 token 吞吐量提高了 1.4 倍，具體基準測試結果見下圖。

圖3：OpenVINO? 2025.1 提升英特爾? 酷睿? Ultra 200H 系列處理器上 LLM 性能，詳見附錄中的負載與配置。結果可能因場景而異。

本次更新的一個重要亮點是預覽支持 Token Eviction（token 清除）機制，用于智能管理 KV 緩存大小。該機制可自動保留重要 token、清除不必要信息，在保證模型表現的同時，大幅降低內存占用，尤其適用于處理長輸入提示的 LLM 和 VLM 應用。Token 被清除后，KV 緩存會自動“重排”以保持上下文連貫性。

Executorch

對于 PyTorch 模型，Executorch 提供了在邊緣設備上高效運行模型的能力，適用于計算資源與內存受限的場景。在此次 OpenVINO? 新版本中，我們引入了 Executorch 的 OpenVINO? 后端預覽支持，可加速推理并提升模型在英特爾 CPU、GPU 與 NPU 上的執行效率。如需開始使用 OpenVINO? 后端運行 Executorch，請參考 GitHub 上的相關文檔。

（https://github.com/pytorch/executorch/blob/main/docs/source/build-run-openvino.md）

OpenVINO? 模型中心（OpenVINO? Model Hub）

如果你對性能基準感興趣，可以訪問全新上線的 OpenVINO? 模型中心（Model Hub）。這里提供了在 Intel CPU、集成 GPU、NPU 及其他加速器上的模型性能數據，幫助你找到最適合自己解決方案的硬件平臺。