英偉達推出開源推理軟件Dynamo 為AI工廠降本增效
3月19日消息,英偉達在2025GTC大會上推出了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。
據介紹,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協調并加速數千個 GPU 之間的推理通信,并使用分離服務將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進行單獨優化,并確保更大程度地利用 GPU 資源。
“全世界各行業都在訓練 AI 模型以不同的方式進行思考和學習,從而使模型復雜度持續升級。”NVIDIA 創始人兼首席執行官黃仁勛表示,“為了實現自定義推理 AI 的未來,NVIDIA Dynamo 可以在這些模型上進行規模化部署,從而為 AI 工廠實現降本增效”。
在 GPU 數量相同的情況下,Dynamo 可將 NVIDIA Hopper? 平臺上運行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72機架組成的大型集群上運行 DeepSeek-R1模型時,NVIDIA Dynamo 的智能推理優化也可將每個 GPU 生成的 token 數量提高30倍以上。
NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM,使企業、初創公司和研究人員能夠開發和優化在分離推理時部署 AI 模型的方法。
這將使用戶加速采用 AI 推理,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
評論