资讯

华泰 | 机械:人形机器人再探讨——具身智能的曙光

转载 2023-08-03 10:49 华泰睿思 来源:华泰睿思

谷歌DeepMind 7月28日推出全球首个控制机器人的视觉-语言-动作(VLA)模型RT-2;斯坦福大学李飞飞教授研究团队7月12日推出VoxPoser,通过大语言模型加视觉语言模型指导机器人行动。搭载此类模型的机器人可以像ChatGPT一样被操纵,可理解自然语言指令并且无需预定义的运动原语或额外的数据和训练,具身智能迎来曙光(具身智能指具有身体并支持物理交互的智能体,可借助智能算法实现理解推理并与物理世界互动)。大模型的发展使机器人更容易理解人类指令并执行动作以完成更好的交互,在以六维力矩传感器为代表的硬件配合下,人形机器人产业化进度有望加快。

核心观点

RT-2/VoxPoser实现自然语言编程,机器人“善解人意”

RT-2/VoxPoser的一大突破是使具身智能机器人可以理解自然语言指令,无需复杂的编程语言便可完成人机交互。RT-2模型建立在视觉-语言模型(VLM)的基础上,赋予机器人语义理解和基本推理能力,使其可以听懂并自主推理出已灭绝动物(恐龙)和哪种饮料最适合疲惫的人 (能量饮料);李飞飞团队VoxPoser模型只需接收到“打开上面的抽屉,小心花瓶!”类似的指令即可执行任务;在华为天才少年彭志辉创业公司智元机器人所发布的视频中,机器人也可根据简单的文字或语音指令对桌面上不同颜色的方块进行选取、调位和叠放等操作。

无需训练即可完成复杂指令,未知场景下RT-2模型泛化能力翻倍

新模型的另一大突破是无需预定义的运动原语或额外的数据和训练,模型泛化能力增强,加速机器人通用化。过去算法下实现机器人扔垃圾的动作须训练机器人区分、捡起、扔掉垃圾各个步骤,而 RT-2 可以将网络相关知识传给机器人,使其无需明确的训练即可学会扔垃圾。面对之前从未见过的任务情形,RT-2成功率达到 62%,泛化性能较RT-1提高一倍。VoxPoser则是在接受环境信息和指令后,由VLM编写代码并指导系统生成相应的操作指示地图,再使用动作规划器直接合成操作轨迹,达到在无需额外数据和训练的情况下完成各种任务,如绕过障碍,开瓶子、拔充电线等。

多模态数据是交互基础,力矩传感器加速人形机器人产业化

具身智能重点在于具有身体体验的能力,与环境交互获得视、听、触觉等多模态数据再做出反应,需要模型与传感器等硬件相互配合。李飞飞教授团队在论文中提到,具身智能依赖于外部感知模块,在需要整体视觉推理或理解细粒度物体几何形状的任务中具有局限性,需要更高级的视觉传感器或其他传感方式。根据我们7月28日发布的《机器人论文前瞻:手部物品姿态估计》,在视觉感知表现不佳时机器人可借助六维力/力矩传感器和本体感知方法完成对物体的姿态估计和几何形状理解。因此在以六维力矩传感器为代表的硬件配合下,人形机器人产业化进度有望加快。

风险提示:实际场景应用困难,模型泛化能力不足,新技术出现。

附录

相关研报

研报:《人形机器人再探讨:具身智能的曙光》2023年7月31日

倪正洋 S0570522100004 | BTM566

点击“阅读原文”,看华泰人形机器人专题

关注我们

华泰睿思

华泰证券研究所官方

0 0

网友评论

取消