加州大学洛杉矶分校开发的“计算机视觉”系统,可以凭借简单的“部分一瞥”就能识别出物体了。
系统通过观察数千张人体图像来理解什么是人体,然后忽略掉不重要的背景物。
彩色点显示了摩托车中心视图的估计坐标。
techxplore.com网站12月18日报道,美国加州大学洛杉矶分校(UCLA)和斯坦福大学(Stanford University)的工程师们设计了一种计算机系统,能够发现并识别它“看到”的真实世界物体,其原理与人类使用的视觉学习方法相同。
该系统是基于“计算机视觉”技术开发的。这种技术使计算机能够读取和识别视觉图像。这一成果可能是向一般人工智能系统迈出的重要一步:计算机可以自学、然后通过推理做出决策,并以更接近人类的方式与人类互动——尽管现在的人工智能计算机视觉系统越来越强大,但它们是针对特定任务设计的,其识别内容的能力受到人类训练和编程的限制。即使是当今最好的计算机视觉系统,如果看到的内容只是物体的某些部分,也无法还原出物体的全貌。并且,它们在陌生环境中识别物体时也很容易产生错觉。研究人员一直致力于开发具有自学和推理能力的计算机识别系统。例如,人类可以很轻松地通过看到的爪子和尾巴,推测出藏身于椅子后方的小狗,并推断小狗其他部分所在的位置。然而,这对于大多数人工智能系统来讲,却是不可能完成的任务。
造成这种局面的原因是什么呢?因为目前的计算机视觉系统并不是为自学而设计的。它们必须接受准确的学习训练才能具有识别功能。鉴于此,计算机更无法解释确定物体的基本原理,也无法像人类那样构建内部图像或学习对象的常识性模型了。美国加州大学和斯坦福大学的研究人员在《美国国家科学院院刊》上发表的论文,展示了一种解决这些缺陷的潜在方法。他们开发的新人工智能系统具备了模仿人类视觉和识别物体的功能。人工智能系统的识别功能主要包含3个步骤。首先,系统将图像分割成小块。然后学习如何将这些视图组合在一起形成“临时”的目标物体。最后,它会查看周围区域的其他物体,并分析它们是否与标识的主对象相关。
为了使新系统具有更类人的“学习”功能,研究人员利用互联网对系统进行了“沉浸式教育”。UCLA电子与计算机工程教授、项目研究首席瓦尼?罗伊乔杜里(Vwani Roychowdhury)说:“互联网为新系统提供了两种重要资源。首先是描绘同一类型物体的海量图像和视频。其次是物体的多角度展示情况。”为了开发这个框架,研究人员还借鉴了认知心理学和神经科学的部分理论。罗伊乔杜里说:“情境学习是人类大脑的关键特征之一,它帮助我们建立情景模型以及所有事物的功能性联系。”
研究人员用大约9000张人像图片对系统进行了测试,发现系统能够在没有外部引导和图像标记的情况下建立人体的详细模型。研究人员还使用摩托车、汽车和飞机等图像进行了类似测试,系统的表现与经过多年培训的传统计算机视觉系统等同甚至更好。
编译:雷鑫宇
审稿:德克斯特
责编:南熙