蘋果Microsoft縮小人工智能模型以改進它們

—— “小型語言模型”作為龐大人工智能選項的替代品出現

作者：Shubham Agarwal 時間：2024-06-25 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

科技公司已經陷入了一場構建最大的大型語言模型（LLM）的競賽中。例如，今年 4 月，Meta 宣布了 4000 億參數的 Llama 3，它包含的參數數量（或決定模型如何響應查詢的變量）是 OpenAI 2022 年原始 ChatGPT 模型的兩倍。雖然尚未得到證實，但 GPT-4 估計有大約 1.8 萬億個參數。
然而，在過去的幾個月里，包括蘋果和Microsoft在內的一些最大的科技公司已經推出了小型語言模型（SLM）。這些模型的規模只是 LLM 對應模型的一小部分，但在許多基準測試中，它們可以與它們相媲美，甚至優于它們。
6 月 10 日，在蘋果全球開發者大會上，該公司宣布了其“Apple Intelligence”模型，該模型具有大約 30 億個參數。4 月下旬，Microsoft 發布了 Phi-3 系列 SLM，其型號包含 38 億至 140 億個參數。

OpenAI 的首席執行官 Sam Altman 認為，我們正處于巨型模型時代的末期。

在一系列測試中，Microsoft最小的模型 Phi-3-mini 可與 OpenAI 的 GPT-3.5（1750 億個參數）相媲美，后者為 ChatGPT 的免費版本提供支持，并優于谷歌的 Gemma（70 億個參數）。這些測試通過提示模型有關數學、哲學、法律等問題來評估模型對語言的理解程度。更有趣的是，Microsoft 的 Phi-3-small 擁有 70 億個參數，在許多基準測試中的表現明顯優于 GPT-3.5。
在波士頓東北大學研究語言模型的亞倫·穆勒（Aaron Mueller）對SLM可以在選定的函數中與LLM并駕齊驅并不感到驚訝。他說，這是因為縮放參數數量并不是提高模型性能的唯一方法：在更高質量的數據上訓練它也可以產生類似的結果。
Mueller 說，Microsoft 的 Phi 模型是在微調的“教科書質量”數據上訓練的，這些數據具有更一致的風格，比 LLM 通常依賴的來自互聯網的高度多樣化的文本更容易學習。同樣，蘋果公司只在更豐富、更復雜的數據集上訓練其SLM。
SLM 的興起正值 LLM 之間的性能差距正在迅速縮小，科技公司希望偏離標準擴展定律并探索其他性能升級途徑。在 4 月份的一次活動中，OpenAI 的首席執行官 Sam Altman 表示，他相信我們正處于巨型模型時代的終結。“我們會以其他方式讓它們變得更好。”
由于 SLM 消耗的能量幾乎不如 LLM，因此它們還可以在智能手機和筆記本電腦等設備（而不是在云中）本地運行，以保護數據隱私并針對每個人進行個性化設置。今年3月，谷歌在該公司的Pixel系列智能手機中推出了Gemini Nano。SLM 可以匯總錄音，并在沒有 Internet 連接的情況下對對話生成智能回復。預計蘋果將在今年晚些時候效仿。
更重要的是，SLM可以使對語言模型的訪問民主化，Mueller說。到目前為止，人工智能開發一直集中在幾家有能力部署高端基礎設施的大公司手中，而其他較小的運營和實驗室則被迫以高額費用獲得許可。
Mueller 說，由于 SLM 可以很容易地在更實惠的硬件上進行訓練，因此對于那些資源有限但仍然足以滿足特定應用的人來說，它們更容易獲得。
此外，雖然研究人員一致認為，要克服幻覺還有很多工作要做，但精心策劃的SLM使他們更接近于構建負責任的人工智能，該人工智能也是可解釋的，這可能使研究人員能夠調試特定的LLM問題，并在源頭上修復它們。
對于蘇黎世聯邦理工學院（ETH Zurich）的計算機科學研究員亞歷克斯·沃斯塔特（Alex Warstadt）這樣的研究人員來說，SLM還可以為一個長期存在的科學問題提供新的、引人入勝的見解：兒童如何獲得他們的第一語言。Warstadt與包括東北大學的Mueller在內的一組研究人員一起組織了BabyLM挑戰賽，參與者在小數據上優化語言模型訓練。
SLM不僅有可能解開人類認知的新秘密，而且還有助于改進生成式AI。到13歲時，他們已經接觸到大約1億個單詞，并且在語言方面比聊天機器人更好，只能訪問0.01%的數據。Warstadt說，雖然沒有人知道是什么讓人類如此高效，但“在小規模上對高效的類人學習進行逆向工程，當擴展到LLM規模時，可能會帶來巨大的改進。

新聞中心

蘋果Microsoft縮小人工智能模型以改進它們

評論

相關推薦

技術專區