谷歌的VaultGemma為保護隱私的人工智能性能樹立了新標準
谷歌有限責任公司的兩大研究部門在大型語言模型隱私領域取得了重大進展,推出了一種名為 VaultGemma 的新模型,這是世界上最強大的“差分私有法學碩士”。
這是一個基于 Google Gemma 架構構建的 10 億參數模型,使用先進的數學算法來防止敏感數據泄露。差分隱私是一種數學算法,用于在共享數據時通過確保包含或排除單個信息不會顯著影響整體結果來保護隱私。這是通過向數據集添加受控噪聲來實現的,這使得任何人都難以識別其中的特定信息。
該技術長期以來一直用于受監管的行業,以保護敏感信息,并且在人工智能隱私方面也具有巨大的潛力。然而,事實證明,將其應用于法學碩士具有挑戰性,導致模型穩定性和效率的權衡。VaultGemma 旨在克服這些問題,并支持使用差分隱私而不會受到任何性能影響。
無需權衡的 AI 隱私
VaultGemma 由 Google Research 與 Google DeepMind 合作開發。研究人員在周五的一篇博文中表示,他們專注于消除差異化私人訓練中固有的計算-隱私-效用權衡。
他們面臨的挑戰是,由于噪聲增加和批量大小增加,根據計算資源和數據大小預測 AI 模型性能的傳統擴展定律在應用差分隱私時站不住腳。因此,該團隊設計了新的擴展定律,考慮到這些因素,以開發更大、更強大的私有法學碩士。
VaultGemma 使用差分隱私框架從頭開始訓練,以確保它不會記住或泄露敏感數據。研究人員表示,這是一個關鍵功能,可能會對金融和醫療保健等受監管行業的人工智能應用產生嚴重影響。
在谷歌對 MMLU 和 Big-Bench 等多個基準測試的評估中,VaultGemma 展示了遠遠超過早期差分私有模型的性能水平,在不犧牲隱私的情況下,與具有相似參數數量的非私有 LLM 更具可比性。例如,結果表明,它在推理和問答等任務上可與早期的非私有 Gemma 模型相媲美,但沒有任何暴露其訓練數據的風險。
VaultGemma 的關鍵創新之一是研究人員調整其訓練協議,以應對因添加噪聲而引起的不穩定性。谷歌的研究顯示了差分隱私如何改變法學碩士的學習動態。因此,差分私有模型需要更大的批量大小和數百萬個示例來穩定訓練。這通常意味著更大的計算需求,但研究人員想出了一些技巧來減輕這些成本,這可能會降低采用私有模型的門檻。
在架構上,VaultGemma 是一個基于 Google 的 Gemma 2 架構的純解碼器 Transformer 模型,具有 26 層并使用多查詢注意力。研究人員表示,關鍵的設計選擇之一是將序列長度限制在僅 1,024 個標記,這有助于管理私人訓練的密集計算要求。該開發以一套新穎的“DP 縮放法則”為指導,該法則提供了一個框架來平衡計算能力、隱私預算和模型效用之間的權衡。
推進私有人工智能
谷歌的研究人員表示,他們正在 Hugging Face 和 Kaggle 上的開源許可下提供 VaultGemma 及其權重和代碼庫,以實現對私人人工智能的民主化。這一步驟與谷歌的慣常方法形成鮮明對比,谷歌擁有最強大的專有法學碩士,例如 Gemini Pro 人工智能“黑匣子”的經典示例。
開源 VaultGemma 的決定可能是谷歌的一項戰略舉措,旨在試圖在不斷變化的法規之前在人工智能隱私領域建立領先地位,并加速數據敏感性問題通常阻礙創新的行業。研究人員表示,谷歌的差分隱私擴展法應該適用于更大的私有法學碩士,可能多達數萬億個參數。隨著企業努力解決數據隱私問題,VaultGemma 可以作為安全人工智能創新的藍圖。
谷歌已經在研究與主要醫療保健提供商合作的可能性,并設想使用 VaultGemma 來分析敏感的患者數據,而不會有任何隱私泄露的風險。
VaultGemma 也可能對道德人工智能產生影響。谷歌研究人員表示,通過拒絕透露其訓練數據,該模型降低了錯誤信息和偏見放大的風險,這可能有助于進一步推進負責任的人工智能模型。
評論