如果你想开发出一种超高速物体识别系统,比如检测导弹或者路上的正在跑的汽车的话,那只用一个连着数码相机的计算机是远远不够的。
加州大学洛杉矶分校的电气工程师 Aydogan Ozcan 希望改变这种情况,所以他的研究团队同时使用了机器学习技术、光学工具和 3D 打印技术,开发出了可高速识别物体的识别系统。不像普通的计算机,这种系统不需要提供外接电源,只需要提供初始光源和一个简单的探测器即可。
研究团队首先提出了一种全光学的深度学习框架——衍射深度神经网络(Diffractive Deep Neural Network,D2NN),该架构采用基于深度学习算法的无源衍射层(passive diffractive layers)设计,经误差反向传播法(error back-propagation method)训练后,能够以接近光速的高速处理能力,实现多种机器学习的复杂功能。团队最后采用 3D 打印制造出了这种光学架构,实现了手写数字和时尚产品的图像分类。该成果已经发表于《Science》杂志上。
图丨论文:All-optical machine learning using diffractive deep neural networks(利用衍射深度神经网络的全光机器学习)
“构建由光学元件堆叠成的固态人工神经网络是一种非常有创新性的方法,”瑞士洛桑联邦理工学院光学与电气工程学院教授 Demetri Psaltis 表示。
蒙特利尔大学研究机器学习和神经网络的 Roland Memisevic 和 Yoshua Bengio 团队的研究生 Olexa Bilaniuk 指出,这一成果新颖之处不在深度学习部分,而是光学工程部分和使用 3D 打印“人工神经网络”的能力。“以前构建这样一个光学网络的工作要么仅仅停留在理论上,要么也只能构建一个又小有简单的系统,”他补充道。
图丨Aydogan Ozcan
Ozcan 团队希望使用该系统来模仿各种动物的眼睛,这些动物的眼睛处理光线和图像的方式与人眼不同。如果在光学显微镜中使用的是较短波长的光的话,这一系统也可以用于显微镜应用和医学成像。
为了建立他们的物体识别系统,Ozcan 和他的同事们首先使用了深度学习的方法。目前深度学习常用于模式识别领域,给定音频或视觉数据,计算机可以应用深度学习技术训练学习识别特定的模式,然后,利用算法习得的某些规则,来对新数据进行预测。
在该研究中,研究人员训练其光学网络模型来识别不同的数据类型的数据,包括从 0 到 9 的手写数字识别和各种服装的图像的识别。在每种情况下,计算机都创建了一个模型,该模型由多个像素层组成。每个像素都可以传输光,像素之间光的连接表示某一神经元与本层或相邻层中的其他神经元的连接。
对于上述提到的两种数据类别,研究人员使用五层 3D 打印塑料对仿真模型进行物理再现,然后使用激光——一种 0.4 THz 的单色光而非可见光来处理每种类型的图像。
3D 打印的多层神经网络接收物体表面反射的光,光以光速经过神经网络的固态结构传播,从模型的出口射出的光射向探测器,预先标定探测器对应的物体或图片的类别,可以间接判断所识别的物体或图片的分类结果。
打印得到的固态模型就像是“连接着的固态大脑,除此之外,光连接神经元,就好像信息在神经元之间流动一样,”Ozcan 解释说。
“这是一种非常高效的神经网络实现,因为一旦被动衍射表面被 3D 打印出来,它们就不会使用任何电力,却可以以光速处理模型的输入,没有任何延迟,”Bilaniuk 说。
研究人员正在努力提高训练模型的性能。在手写数字识别实验中,他们的人工网络在识别新的手写数字时准确度约为 91.75%。他们还希望扩大打印的人工网络的尺寸,目前论文中报道的尺寸为 8 cm×8 cm。“增加更多的层数,我们可以以更高准确率实现更复杂的任务,”Ozcan 表示。
对于 Psaltis 来说,这一工作提出所带来的问题多于答案:这个系统可以变得更强大和稳定吗?速度是否还可以提高?建模和 3D 打印的成本是多少?我们如何将这一系统与现有的数字设备结合起来?
根据 Bilaniuk 的说法,如果该系统可以适应常规光线,并能做到小型化,那么潜在的应用可能是手机相机中的人脸识别和自动对焦,而且这种方案并不会像数字设备那样消耗电池。