Microsoft推出可在常規CPU上運行的AI模型
Microsoft Research 的一組計算機科學家與中國科學院大學的一位專家合作,推出了 Microsoft 的新 AI 模型,該模型在常規 CPU 而不是 GPU 上運行。研究人員在 arXiv 預印本服務器上發布了一篇論文,概述了新模型的構建方式、特性以及迄今為止在測試過程中的表現。
在過去的幾年里,LLM 風靡一時。ChatGPT 等模型已向全球用戶開放,引入了智能聊天機器人的理念。它們中的大多數都有一個共同點,那就是它們都經過訓練并在 GPU 芯片上運行。這是因為他們在使用大量數據進行訓練時需要大量的計算能力。
最近,人們擔心數據中心使用大量能源來支持所有用于各種目的的聊天機器人。在這項新的工作中,該團隊找到了一種更智能的方式來處理這些數據,并且他們建立了一個模型來證明這一點。
運行 AI 模型最耗能的部分之一涉及權重的使用和存儲方式,通常為 8 位或 16 位浮點數。這種方法涉及大量內存和 CPU 處理,這反過來又需要大量能量。在他們的新方法中,研究人員完全取消了浮點數的使用,而是建議使用他們所描述的 1 位架構。
在他們的創新中,僅使用三個值來存儲和處理權重:-1、0 和 1。這允許在處理過程中只使用簡單的加法和減法 - 這些作可以使用基于 CPU 的計算機輕松完成。
對新模型類型的測試表明,它能夠在同類規模中與基于 GPU 的模型相媲美,甚至超越了其中一些模型,同時使用的內存要少得多,最終能耗也要低得多。
為了運行這樣的模型,該團隊為其創建了一個運行時環境。新環境稱為 bitnet.cpp,旨在充分利用 1 位體系結構。
如果團隊的說法成立,BitNet b1.58 2B4T 的開發可能會改變游戲規則。用戶無需依賴海量數據農場,而是很快就可以在他們的計算機或手機上運行聊天機器人。除了減少能源需求外,本地化 LLM 處理還將大大提高隱私性,并允許在沒有連接到 Internet 的情況下工作。
BitNet b1.58 2B4T 在性能與內存方面推進了帕累托前沿,該前沿是由 3B 參數下領先的開放權重 LLM 定義的,展示了卓越的效率。
評論