從斯坦福大學的 VIMA 機器人智能體,到谷歌 DeepMind 推出首個控制機器人的視覺 - 語言 - 動作(VLA)的模型 RT-2,大模型加持的機器人研究備受關注。
當前,自監督和語言監督的圖像模型已經包含豐富的世界知識,這對于泛化來說非常重要,但圖像特征是二維的。我們知道,機器人任務通常需要對現實世界中三維物體的幾何形狀有所了解。
基于此,來自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(Distilled Feature Field,DFF),將準確的 3D 幾何圖形與來自 2D 基礎模型的豐富語義結合起來,讓機器人能夠利用 2D 基礎模型中豐富的視覺和語言先驗,完成語言指導的操作。
論文地址:https://arxiv.org/abs/2308.07931
具體來說,該研究提出了一種用于 6-DOF 抓取和放置的小樣本學習方法,并利用強大的空間和語義先驗泛化到未見過物體上。使用從視覺 - 語言模型 CLIP 中提取的特征,該研究提出了一種通過開放性的自然語言指令對新物體進行操作,并展示了這種方法泛化到未見過的表達和新型物體的能力。
研究團隊用一個講解視頻詳細介紹了 F3RM 方法的技術原理:
資料獲取 | |
新聞資訊 | |
== 資訊 == | |
» DeepSeek 策略三問-AI封鎖,有 | |
» DeepSeek-R1技術報告-冷啟動數 | |
» 人形機器人靈巧手:仿生設計大勢所趨,自由 | |
» 四足機器人:移動智能體的踏浪者,售價已降 | |
» 海外人形機器人深度:人形機器人GhatG | |
» DeepSeek最受益方向是云產業鏈,部 | |
» DeepSeek從入門到精通-提出了AI | |
» AI陪伴互動軟件硬件全景解析-可交互內容 | |
» 2025人形機器人產業發展藍皮書-從研發 | |
» 中國AI搜索行業發展報告-AI搜索能夠理 | |
» 星動紀元打造人形機器人+靈巧手特色產品 | |
» 普渡機器人R2X架構,專用、類人形、人形 | |
» 宇樹科技9輪融資匯總 | |
» 智元機器人8輪融資匯總 | |
» 智元機器人具身智能技術演進路線:G1 至 | |
== 機器人推薦 == | |
![]() 服務機器人(迎賓、講解、導診...) |
|
![]() 智能消毒機器人 |
|
![]() 機器人底盤 |
![]() |