• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 博客專欄

    EEPW首頁 > 博客 > 李飛飛「具身智能」新成果!機器人接入大模型直接聽懂人話,0預訓練就能完成復雜指令(1)

    李飛飛「具身智能」新成果!機器人接入大模型直接聽懂人話,0預訓練就能完成復雜指令(1)

    發布人:計算機視覺工坊 時間:2023-07-11 來源:工程師 發布文章

    李飛飛團隊具身智能最新成果來了:

    大模型接入機器人,把復雜指令轉化成具體行動規劃,無需額外數據和訓練。

    圖片

    從此,人類可以很隨意地用自然語言給機器人下達指令,如:

    打開上面的抽屜,小心花瓶!

    圖片

    大語言模型+視覺語言模型就能從3D空間中分析出目標和需要繞過的障礙,幫助機器人做行動規劃。

    圖片

    然后重點來了, 真實世界中的機器人在未經“培訓”的情況下,就能直接執行這個任務。

    圖片

    新方法實現了零樣本的日常操作任務軌跡合成,也就是機器人從沒見過的任務也能一次執行,連給他做個示范都不需要。

    可操作的物體也是開放的,不用事先劃定范圍,開瓶子、按開關、拔充電線都能完成。

    圖片

    目前項目主頁和論文都已上線,代碼即將推出,并且已經引起學術界廣泛興趣。

    圖片

    一位前微軟研究員評價到:這項研究走在了人工智能系統最重要和最復雜的前沿。

    圖片

    具體到機器人研究界也有同行表示:給運動規劃領域開辟了新世界。

    圖片

    還有本來沒看到AI危險性的人,因為這項AI結合機器人的研究而改變看法。

    圖片

    機器人如何直接聽懂人話?

    李飛飛團隊將該系統命名為VoxPoser,如下圖所示,它的原理非常簡單。

    圖片

    首先,給定環境信息(用相機采集RGB-D圖像)和我們要執行的自然語言指令。

    接著,LLM(大語言模型)根據這些內容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導系統生成相應的操作指示地圖,即3D Value Map

    圖片

    所謂3D Value Map,它是Affordance Map和Constraint Map的總稱,既標記了“在哪里行動”,也標記了“如何行動”

    圖片

    如此一來,再搬出動作規劃器,將生成的3D地圖作為其目標函數,便能夠合成最終要執行的操作軌跡了。

    而從這個過程我們可以看到,相比傳統方法需要進行額外的預訓練,這個方法用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。

    更進一步,正是由于這個特點,它也實現了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務。

    在具體實現中,作者將VoxPoser的思路轉化為一個優化問題,即下面這樣一個復雜的公式:

    圖片

    它考慮到了人類下達的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務,比如開頭第一個示例就由“抓住抽屜把手”和“拉開抽屜”組成。

    VoxPoser要實現的就是優化每一個子任務,獲得一系列機器人軌跡,最終最小化總的工作量和工作時間。

    而在用LLM和VLM將語言指令映射為3D地圖的過程中,系統考慮到語言可以傳達豐富的語義空間,便利用“感興趣的實體(entity of interest)”來引導機器人進行操作,也就是通過3DValue Map中標記的值來反應哪個物體是對它具有“吸引力”的,那些物體是具有“排斥性”。

    圖片

    還是以開頭的例子舉

    *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



    關鍵詞: AI

    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 界首市| 若羌县| 贵阳市| 彩票| 西畴县| 彩票| 庄浪县| 呼伦贝尔市| 石阡县| 卫辉市| 韶山市| 文安县| 丹巴县| 宁阳县| 新营市| 昌都县| 扬中市| 太白县| 开远市| 安庆市| 岳阳县| 白朗县| 汉源县| 永登县| 东源县| 晴隆县| 保靖县| 东乡族自治县| 清远市| 金川县| 阿巴嘎旗| 同仁县| 武平县| 永宁县| 淮北市| 巴塘县| 普安县| 论坛| 建瓯市| 黎城县| 兴城市|