Google新機器人AI可在沒有云情況下運行，并仍可系鞋帶

—— 谷歌的 Carolina Parada 表示，Gemini 已經(jīng)實現(xiàn)了巨大的機器人技術(shù)突破，例如新的設(shè)備端 AI。

作者：時間：2025-06-25 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

我們有時將 Gemini 和 ChatGPT 等聊天機器人稱為“機器人”，但生成式 AI 在真實的物理機器人中也發(fā)揮著越來越大的作用。在今年早些時候宣布 Gemini Robotics 之后，Google DeepMind 現(xiàn)在推出了一種新的設(shè)備上 VLA（視覺語言動作）模型來控制機器人。與之前的版本不同，它沒有云組件，允許機器人完全自主運行。

本文引用地址：http://www.czjhyjcfj.com/article/202506/471670.htm

Google DeepMind 機器人技術(shù)負(fù)責(zé)人 Carolina Parada 表示，這種 AI 機器人技術(shù)方法可以使機器人在具有挑戰(zhàn)性的情況下更加可靠。這也是 Google 機器人模型的第一個版本，開發(fā)人員可以根據(jù)其特定用途進行調(diào)整。

機器人技術(shù)是 AI 的一個獨特問題，因為機器人不僅存在于物理世界中，而且還會改變其環(huán)境。無論您是讓它四處移動積木還是系鞋帶，都很難預(yù)測機器人可能遇到的每一種可能性。使用強化訓(xùn)練機器人動作的傳統(tǒng)方法非常緩慢，但生成式 AI 允許更大的泛化。

“它借鑒了 Gemini 的多模態(tài)世界理解，以完成一項全新的任務(wù)，”Carolina Parada 解釋說?！斑@使得 Gemini 能夠以同樣的方式生成文本、寫詩、總結(jié)一篇文章，還可以編寫代碼，還可以生成圖像。它還可以生成機器人動作。

通用機器人，無需云

在之前的 Gemini Robotics 版本（仍然是 Google 機器人技術(shù)的“最佳”版本）中，這些平臺運行了一個混合系統(tǒng)，其中一個小模型在機器人上，一個較大的模型在云中運行。您可能已經(jīng)看到聊天機器人在生成輸出時“思考”了可測量的幾秒鐘，但機器人需要快速反應(yīng)。如果您告訴機器人拾取并移動對象，則不希望它在生成每個步驟時暫停。本地模型允許快速適應(yīng)，而基于服務(wù)器的模型可以幫助完成復(fù)雜的推理任務(wù)。Google DeepMind 現(xiàn)在正在將本地模型作為獨立的 VLA 發(fā)布，而且它非常強大。

新的 Gemini Robotics On-Device 模型的準(zhǔn)確性僅比混合動力版本差一點。根據(jù) Parada 的說法，許多任務(wù)都是開箱即用的?！爱?dāng)我們與機器人一起玩時，我們看到它們能夠理解新情況的能力出奇地大，”Parada 告訴 Ars。

通過發(fā)布帶有完整 SDK 的模型，該團隊希望開發(fā)人員能夠為 Gemini 驅(qū)動的機器人提供新任務(wù)，并向它們展示新環(huán)境，這可能會揭示與模型的庫存調(diào)整不起作用的作。借助 SDK，機器人研究人員將能夠通過低至 50 到 100 次演示使 VLA 適應(yīng)新任務(wù)。

新的 Robotics On-Device 模型幾乎與具有云處理功能的混合模型一樣具有適應(yīng)性。來源：谷歌

AI 機器人的“演示”與 AI 研究的其他領(lǐng)域略有不同。Parada 解釋說，演示通常涉及遠程作機器人 — 手動控制機器以完成任務(wù)，調(diào)整模型以自主處理該任務(wù)。雖然合成數(shù)據(jù)是 Google 培訓(xùn)的一個元素，但它并不能替代真實數(shù)據(jù)?！拔覀?nèi)匀话l(fā)現(xiàn)，在最復(fù)雜、最靈巧的行為中，我們需要真實的數(shù)據(jù)，”Parada 說?！暗?，你可以用仿真做很多事情?！?/p>

但這些高度復(fù)雜的行為可能超出了設(shè)備上的 VLA 的能力范圍。它應(yīng)該沒有問題，可以進行簡單的作，例如系鞋帶（AI 機器人的傳統(tǒng)困難任務(wù)）或折疊襯衫。但是，如果您想讓機器人為您制作三明治，則可能需要一個更強大的模型來完成將面包放在正確位置所需的多步驟推理。

該團隊認(rèn)為 Gemini Robotics On-Device 非常適合與云連接不穩(wěn)定或不存在的環(huán)境。在本地處理機器人的視覺數(shù)據(jù)也更有利于隱私，例如，在醫(yī)療保健環(huán)境中。

構(gòu)建安全的機器人

安全始終是 AI 系統(tǒng)關(guān)注的問題，無論是提供危險信息的聊天機器人還是成為終結(jié)者的機器人。我們都見過生成式 AI 聊天機器人和圖像生成器在其輸出中產(chǎn)生幻覺，為 Gemini Robotics 提供支持的生成系統(tǒng)也不例外——該模型并非每次都做對，但給模型一個帶有冰冷、無情的金屬抓取器的物理體現(xiàn)會使問題變得更加棘手。

為了確保機器人安全運行，Gemini Robotics 采用了多層方法?！笆褂猛暾?Gemini Robotics，您正在連接到一個模型，該模型正在推理什么是安全的，”Parada 說?！叭缓竽阕屗c實際產(chǎn)生選項的 VLA 交談，然后 VLA 調(diào)用一個低級控制器，該控制器通常具有安全關(guān)鍵組件，例如您可以移動多少力或可以移動這個臂的速度?！?/p>

重要的是，新的設(shè)備端模型只是一個 VLA，因此開發(fā)人員將自行構(gòu)建安全。不過，谷歌建議他們復(fù)制 Gemini 團隊所做的。建議早期測試程序中的開發(fā)人員將系統(tǒng)連接到標(biāo)準(zhǔn) Gemini Live API，其中包括一個安全層。他們還應(yīng)該實施一個低級控制器，用于關(guān)鍵的安全檢查。

任何有興趣測試 Gemini Robotics On-Device 的人都應(yīng)該申請加入 Google 的可信測試員計劃。Google 的 Carolina Parada 表示，過去三年中，機器人技術(shù)取得了許多突破，而這僅僅是個開始——Gemini Robotics 的當(dāng)前版本仍然基于 Gemini 2.0。Parada 指出，Gemini Robotics 團隊通常落后于 Gemini 開發(fā)一個版本，而 Gemini 2.5 被認(rèn)為在聊天機器人功能方面取得了巨大改進。也許機器人也會如此。

新聞中心

Google新機器人AI可在沒有云情況下運行，并仍可系鞋帶

評論

相關(guān)推薦

技術(shù)專區(qū)