今年的《麻省理工科技评论》十大突破性技术中有一项就是灵巧机器人,今日的机器人普遍仍表现得颇为笨拙,若能提高其手部的灵活性,将可胜任更多的任务,目前在机器人手的领域有几个趋势,一是改善其敏捷程度,人类的手指跟手掌相当灵巧,机器人手在抓握的速度、准确性仍有很大空间,科学家们通过优化机器人的手部结构,比如增加手的自由度(关节),利用 AI 算法进行模拟训练等,不过想要增加机器手的自由度,成本就会大幅提高。
此外,则是自主学习,举例来说,工业的机器人手臂大多是重复执行任务,总体性能取决于其控制器跟踪预定轨迹的准确性,轨迹路线是仰赖工程师事先编程及测试,此法难适用于复杂的环境或复杂的动作,比如机器人打乒乓球,因此许多研究机构利用强化学习(Reinforcement Learning)或无监督学习来训练机器人,自主学习抓取、移动东西等。
再来就是感知,视觉、触觉都有不少研究,通过摄像头,机器人可以知道自己正在抓取的物体是什么,进而判断该施予多大的力量强度,或是让抓手本身拥有触觉,像是使用传统的压力传感器或是柔性的电子皮肤,先前卡内基梅隆大学(CMU)的研究人员就教导机器人通过触摸来学习,像婴儿会抓、推、戳东西来主动观察物体。
另外,上个月麻省理工学院(MIT)也发布了一项研究:让有视觉和触觉的机器人学习玩叠叠乐(Jenga)游戏,该机器人配备了软性的手指夹具、手腕上则有力量传感器,玩叠叠乐游戏涉及力量的判断,让机器人有触觉将有助于机器人在生产线上组装手机和其他小零件。参与该研究的 MIT 机械工程系助理教授 Alberto Rodriguez 就表示,“在手机组装线上大多数的步骤,如锁螺丝,这些对力的感受都来触摸,而不是视觉”。
触觉除了可用于执行更复杂的任务之外,触摸往往也是互动、情感交流的管道,对未来人类与机器人互动、关系建立是很重要的一个元素,因此发展机器人触觉无疑是行业趋势之一。
图|电影 《阿丽塔:战斗天使》中,一幕 Alita 与人类肌肤接触(图片来源:20th Centur
近日,加州大学伯克利分校电气工程与计算机科学系助理教授、同时也是该校机器人人工智慧与学习实验室(Robotic Artificial Intelligence and Learning Lab)负责人的 Sergey Levine 与其他研究者及科学家,在arxiv.org上连续发表两篇以机器人触觉(the sense of touch)为主题的研究,他们提出了视觉+触觉的跨模态识别系统,让机器人用摸的就能辨识物体,接着又开发出一个以触觉为基础的控制模型,让机器手可以执行复杂的任务,像是把小球推到用户指定的位置。
在《Learning to Identify Object Instances by Touch: Tactile Recognition via Multimodal Matching》研究中,他们指出,许多关于机器人感知的研究都集中在视觉模态上。 视觉提供了对场景的全局观察,在广泛的场景下很有用处,不过,在机器人操控领域,单靠视觉有时是不够的,在光线不足或遮挡的情况下,就很难识别出物体,触觉将提供机器人另一个识别物体的机制。
举例来说,人类很自然会将物体的外观、材料特性联系起来,比如当我们在玩恐怖箱游戏,看不到物体,靠触摸去猜想大概是什么东西,或是在抽屉找一把剪刀,摸到尖尖的、凉凉的金属表面、弯曲的手柄,人类很自然就会判断是不是剪刀,这就是一种多模态关联(multi-modal)的触觉能力。
因此,Sergey Levine 他们的目标就是训练机器人学习类似人类多模态关联(multi-modal association)的能力,打造一个主要依靠触觉而非视觉的感知框架,使机器人能够通过触摸来识别物体。
触觉的挑战首先是触觉传感器不像视觉,可得到一个全局的视图,仅能透过物体局部表面的特性来做,其次,触觉的读数较难解释。为了解决这些限制,他们在机器人的两指抓手(a two-fingered gripper)上配置 2 个高分辨率 GelSight 触摸传感器,并与摄像头结合,当抓手与物体接触时,摄像头会拍下抓手拾取物体时,凝胶受力而产生的压痕,然后 GelSight 产生读数(reading),这些数据输入到 CNN 里。通过收集 98 个不同物体的样本,并让机器抓手反覆学习,他们的实验结果表明,所训练出的 AI 能够从触觉中正确推断物体是什么,即使对于没看过的新物体,检测率也不差。
图|机器人可以用摸的来辨识物体 (来源:arxiv.org)
另外,研究人员表示,先前已有其他探讨多模态关联的研究,例如视觉和听觉的匹配、视觉和语言的匹配等,他们则是受到一篇开发双流分类器来预测图像和音频是否来自同一视频的研究所启发,另外,先前的机器人触觉研究多是识别“材料属性”,他们的研究则可以通过触摸识别“物体”。未来机器手触觉可以应用在仓库自动化机器人,通过手指来感觉、检索货架上的物体等。
另一篇论文《Manipulation by Feel: Touch-Based Control with Deep Predictive Models》则是上述研究的延伸,利用配置 GelSight 触觉传感器的机器人操控球,进行无监督的自主学习,进而开发出一个基于触觉的控制模型,并且利用该触觉预测模型,执行三个复杂的触觉控制任务,包括将物体重新推移到指定位置、懂得操作游戏摇杆、把一个具有 20 个面的骰子推到指定面。
不过,他们也表示研究方法仍有局限性,例如,短距离的控制,有些任务只需要几十个步就可以达到目标,也就是说,执行简单任务时有效,但若任务需要重新排列多个对象、或重复执行更复杂的手指步态时,模型就需要改进。此外,该研究只使用一根手指,可执行的范围仅限于简单的重新排列,未来将展开多只手指的研究,以扩展研究结果。
图|如果要进行细致的操控时,人类主要依靠触摸,例如手指遮挡了视线(左)。研究人员利用触摸传感器训练出机器控制模型(右)(来源:arxiv.org)