机器人有“触觉”了!上交&MIT发明一款机器人,拿起笔就能甩

近年来,人工智能(AI)的发展势头从最初的兴起逐渐走向平缓,现阶段 AI 领域面临的一个瓶颈就是十分依赖人工标注的数据,正如数据标注行业流行的那句话,“有多少智能,就有多少人工”。

如果可以让机器人自己进行数据采集、数据分析,无疑可以节省很多人力。麻省理工学院(MIT)计算机科学系博士王少雄认为能够让机器人学会自我分析是一件令他十分兴奋的事情,“机器人可以利用自动化的方式自己重置系统,以及通过和物体交互的过程来自己学习”,他觉得这样在数据标注方面可以节省很多人力。

今年,王少雄和另外一位一作王辰的一篇有关机器人可以自我采集触觉数据并自我分析,最终能够完成特定动作的论文获得了机器人领域国际顶会 IROS 2020 的最佳论文奖。

下图的机器人就是他们研究的成果,它叫 SwingBot,可以把它理解为是一个 “甩笔” 机器人。它将这根笔由下到上翻转了 180 度,这真的不是研究人员给它 “喂” 了大量的数据才建立的模型,这是它通过自我采集触觉数据并学习分析后的结果。

这项研究来自于麻省理工学院(MIT)与上海交通大学的暑期联合项目,论文题目为 “SwingBot: Learning Physical Features from In-Hand Tactile Exploration for Dynamic Swing-up Manipulation”(SwingBot:从手部触觉探索中学习物理特征,以实现动态摆起操作)。

论文的两位一作分别是王辰和王少雄,王辰刚刚本科毕业于上海交通大学、即将前往斯坦福大学攻读计算机科学博士学位,少雄本科毕业于清华大学、目前是 MIT 计算机科学系在读博士生。

“我们在思考怎样才能让机器人通过简单的动作去感知手上握有物体的物理特性,比如物体的质量、重心,物体表面的摩擦力等,” 王辰告诉 DeepTech。

因为人在做很多控制任务的时候,其实并不需要知道这些精确的物理参数,但是我们通过一些掂量的动作,就能够感受到这个物体的特性,比如我们在看手机时,谁也不会拿手机的上部,因为我们能感受到托住手机的下部才是最省力的,但谁也无法分析出具体关于力的物理参数。

研究人员正想让机器人通过自我学习来解决这样的问题,让它自我采集数据进行整合分析,不断地学习,最终希望它不仅能分析出完成相关动作所需的物理参数,还能顺利拿起未知物体完成指定动作。

如果说这篇论文的出彩之处是培养了机器人对触觉的分析能力,那么实验中用到的触觉传感器则至关重要。

GelSight 触觉传感器:表面柔软、分辨率高,能复刻整块饼干的形状和纹理

GelSight 最初是为测量目标表面的三维形状和纹理而设计的,由覆盖有反射涂层膜的透明弹性体板组成。当物体被压在弹性体上时,薄膜会变形,呈现物体表面的形状,但具有一致的反射率。例如研究人员以奥利奥饼干为例,将饼干压在弹性体板的表皮上,从后面看,薄膜能够完全复刻出饼干的形状和纹理。

图|将饼干压在弹性体板的表皮上。来源:[1]

王少雄告诉 DeepTech,“这个触觉传感器其实是一个非常新的处理系统,目前还处于研究阶段,它最大的特点就是可以以整张图像的形式输入,而其它的传感器可能只有十几个电极,这就极大的丰富了触觉的感知能力。”

王辰补充道,“GelSight 触觉传感器的一大优点是成本更低,而且能够返回高密度的光学信息,能够更好的获得触觉端对物体的感知情况。”

研究中用到的触觉传感器 GelSight 同样出于 MIT 实验室,最初是 MIT CSAIL 感知科学小组教授 Edward H. Adelson 2009 年的研究成果,近年来逐步研发并应用于机器人触觉中。

图 | GelSight 原型,CVPR 2009。来源:[1]

图 | GelSight 运用于机器人触觉,Sensors 2017。来源:[2]

在本篇论文中,研究人员将下图中的传感器安装在机械臂的抓手上,以此来采集不同质量、重心物体的数据。

若要让 Swingbot 很好地完成甩笔任务,虽然研究人员猜测质量、重心、摩擦力等参数可能会影响实验结果,但是他们并不知道究竟是哪一部分占主导作用,“所以需要机器人具备分析能力,我们希望它能够通过倾斜以及抖动这些简单的探索动作,自己从触觉传感器的反馈信息当中搜集完成这个任务所需要的信息。” 王辰说道。

触觉探索第一步:通过倾斜+摇晃,机器人得到不同笔的物理特征

研究方法由两个主要部分组成,一个信息融合模型和一个正向动力学模型。研究人员首先让 SwingBot 执行两个动作,分别是倾斜和摇晃,这是一种手持式物理特征探测方法,帮助机器人进行触觉探索。一旦机器人学会嵌入物体的物理参数,正向动力学模型就会通过特征向量和控制参数来产生起摆运动,以实现最终的 “甩笔” 角度。

少雄说道,“我们想让机器人去感觉一个未知的物体,通过让它完成特定的操作来感知物体的物理信息,然后我们可以借助这个物理信息应用到控制系统中。”

图|机器人采取几个步骤来获取被持有对象的物理特征

在训练初始一定伴随着很多困难,比如机器人总是拿不住笔,但这些都没能难住他们。“我们在底下安装了一个 V 型的槽,一方面它可以回收和接到飞出去的笔,另一方面它通过顶部的相机可以捕捉物体的一个位置,然后它可以去调节这个物体,让它重新到最初的位置。通过这个方法就完全不需要人为去参与。” 王辰告诉 DeepTech。

在机器人完成倾斜动作时,研究人员发现,当物体倾斜到一定的角度时能够检测出物体的质量,因此他们分别让机器持笔倾斜到 20 度和 45 度,可以观察到物体重量产生不同的力和扭矩分布。这些触觉反馈信息会通过一个卷积神经网络(CNN)来输出一个一维的特征向量。

在机器人完成晃动任务时,从触觉信号的时间序列中可以观察到不同的摩擦和震动,研究人员用一个循环神经网络(RNN)来处理获得相应的特征,可以获取有关摩擦力和惯性矩的信息。

然后,一个由若干多层感知器(MLP)组成的信息融合模型会将以上两步中收集到的物理特征进行整合分析,得到一个低维的物理特征概括,这也就是机器人获取自我分析能力的基础。

自我采集 1300 多组数据并分析,成功将笔甩至 90 度和 180 度

在机器人具备自我分析能力后,才迎来了研究的重点 —— 甩笔,这项任务看似单一且简单,实则不然。

王辰告诉 DeepTech,甩笔其实是一个非常不稳定的任务,“刚开始的时候不仅需要四处捡笔,而且有时它根本不能把笔甩起来,或者甩不到我们想要的角度。在这个过程中,我们发现对于收集数据也非常困难。”

王辰还透露,机器人自我采集的数据一共有 1300 多组,包含 27 个不同物理特性的物体,采集这些数据用了大概一天的时间。“当完成采集时,这也是成功的讯号。”

图|通过添加 / 摘除相关零件以及换不同摩擦系数的笔头来制作不同物理特性的物体

最后一步就是让学习了物理特征的预测模型尝试将那些未知特征的笔甩到特定角度,对此,研究人员准备了 6 个测试对象,从机器人准备甩笔到完成特定的角度,整个过程只有 5 秒左右。

对于这些未知的物理特征,SwingBot 也能成功完成指定动作,王辰称,最终的误差仅在 10 度左右。

图|定量评价预测模型与物理嵌入的结果

研究人员证实了借助这种融合模型,可以将多个探索动作获取的信息组合到一个联合嵌入空间中,以端到端的自我监督方式来训练机器人,最终 SwingBot 能够很好地完成甩笔动作。此外,该研究还表明,学习到的面向任务的特征嵌入也可以成功地回归个体的物理特性,如质量、质心、惯性矩和摩擦。

关于未来的研究方向,王辰说道,“甩笔是一个比较简单直观可以理解的一个例子,但是这个触觉分析的能力未来可以用在很多其他的任务上,不仅不单单只是这样的一个甩笔任务。”

两位一作

一次暑期研究的机会,二人通过邮件结识。就这样,今年夏天刚刚从上海交通大学毕业的王辰和 MIT 计算机科学系在读博士生王少雄开始了这次长达六个月的合作,而他们本身也都十分优秀。

图|王辰

王辰在今年获得了上海交通大学计算机科学学士学位,师从卢策吾教授。大学期间,王辰也参与了多次实习项目,他在 2018 年 6 月至 2019 年 8 月担任斯坦福大学的研究实习生,Silvio Savarese、朱玉可和李飞飞都是他的导师。他还在 2018 年 1 月到 5 月期间参与 “Transferable Force-Torque Dynamics Model for Peg-in-hole Task” 项目的研究,研究成果也提交到了 IROS 2019。接下来,王辰即将前往斯坦福大学继续攻读计算机科学博士学位。

图|王少雄

王少雄本科就读于清华大学计算机科学与技术系,师从唐杰。毕业后他去到 MIT 继续深造,目前是 MIT 计算机科学系在读博士生。从 2016 年至今,王少雄共发表了六篇论文,除了本次的 SwingBot 项目获得了 IROS 2020 最佳论文奖,今年 7 月他参与的研究的 “操纵电缆机器人” 项目(Cable Manipulation with a Tactile-Reactive Gripper)也入围了机器人领域国际顶级会议 RSS 2020 最佳论文。

图|操纵电缆机器人

最后,提到对于 AI 发展的前景以及对于通用人工智能(AGI)的畅想,二人直言没有想那么远。“我们更多希望看到的是有一个实际的问题,然后知道这个问题的难点在哪里,如何去解决它。因为其实当下对于机器人控制的话,还有很多问题没有解决,远还没有到去思考 AI 会不会像人一样,总归是一步步来。” 王辰说道。