清华教授温江涛:后摩尔时代的视觉感知应回归能耗

“我们现在已经进入到了一个面向特定域设计架构的时代,现在最大的限制因素就是能耗,我们需要提出一系列新的理论指导下的算法,针对特定应用领域,面向应用和算法设计架构,面向应用和架构设计算法,思考怎么可以更高效地感知、处理我们获得的数据。”铂岩科技 CEO 温江涛在 EmTech China 峰会上表示。

温江涛于 2012 年回到学术界后仅仅三年即当选国际知名学会 IEEE Fellow,是当时中国大陆最年轻的当选者。他现任清华大学计算机科学与技术系长聘正教授,同时也是媒体与网络技术教育部 - 微软重点实验室联合主任。

图 | 温江涛在 EmTech China 峰会上发表主题演讲(来源:EmTech China)

需要提到的是,他于 21 世纪初在美国从事视频编码、多媒体通信等相关的研究和标准制定工作,曾有多个专利被国际标准采用。他作为共同创始人,主要技术负责人和天使投资人也参与创办了多家公司,先后被 Dell、Facebook 等上市公司收购,产品在世界各地广泛应用,包括三星、华为、阿里巴巴、谷歌等公司都在使用他设计实施的产品。

他在大会上以《摩尔定律之后的视觉感知》为题发表了演讲,他认为现在正处在三个趋势的交汇期:无处不在的视频和视觉应用;摩尔定律和登纳德缩放效应的终结;伦理和隐私问题。

他认为,相机的分辨率、处理器能力、AI 算力已遇瓶颈,而能耗更是最终的限制因素。

既使用我们能设想的最先进的理想半导体技术,要实现类似生物大脑的信息处理能力也需要 10 兆瓦的能耗,但是生物大脑的能耗不过 10 瓦,这里面有 1000000:1 的差距。如果要把视觉数据通过网络传输的话,功耗会更大若干的数量级,而且延时对很多应用来讲不能接受。

所以人们希望可以通过 AI 处理器来解决这样的问题,比如华为和英伟达等公司,它们希望可以让摄像头更智能,避免摄像头和云服务器之间的数据传输,并且处理视觉信息比传统通用服务器更有效率。

图 | 能耗 1000000:1(来源:温江涛)

除了数据在芯片上和芯片外、网络中的传输,现有体系对于视觉信号的表示和处理的效率也不是很高。人类大脑可以通过各种方式直接实现非线性处理,但是机器只能处理 0 和 1 这样的二进制数据,需要用很多门电路才能完成对复杂逻辑和函数的模拟。这在很大程度上也限制了效率。因此有公司希望通过开发不同线路来模拟人类大脑功能,有一些致力于开发神经芯片,通过监控神经元的突起开发出深度学习的算法并集成到线路中。

而在下一代 “视觉感知” 技术中,温江涛认为“会有这样一种新的阵列,它的耗能是非常低的,而且整体延迟率非常低,并且可以具有学习能力,可以进行不断的自我演进,这是后摩尔定律和登纳德缩放效应时代视觉处理的必由之路。”

图 | VPU 直接利用光子的数据,低功耗低延迟实现追踪等基础视觉任务(来源:温江涛)

他把这类视觉处理器架构称为 VPU,VPU(Visual Perception Unit,视觉感知单元)可以以极低的功耗和延时,更好地完成感知、追踪和识别等基本视觉任务。

传统的效果是把光子信息通过光电转换和复杂的信号处理重建为一系列数据量巨大的高清晰度像素点阵序列信息。这些信息再通过通用或者专用处理器处理,中间涉及大量的无效计算和数据传输,并且为了完成数据传输,需要压缩、解压缩等复杂处理。而 VPU 可以直接感知光子,不需要通过视频序列的重建就可以直接完成视觉任务,从而在根本上实现现有体系无法达到的功耗、延时和处理性能。

生物视觉的另外一个特征是大量不同类型的视觉细胞(比如人类就有两种)甚至复眼系统的信息融合,以达到更宽广的视野和更好的感知能力。VPU 架构也需要把不同的信息融合在一起,还需要考虑兼容性、同步、异步、可靠性等等问题。这个融合可以在芯片内完成,也可以在芯片外完成,甚至可以通过摄像头阵列来实现。

因为大量的感知单元运行着一系列随机的任务,为了能更好地配置资源,必须要高效建模,然后实时动态地对数以万计的处理资源做优化的分配。这一核心技术也可以用在英特尔 CPU 这样的通用处理器上,实现诸如实时、低延时、高广播级超高清视频编码这样对计算资源和数据吞吐率有极高要求的应用。

温江涛的团队今年在世界上首次实现了广播级 8K+5G 的实时转播,在诸如男篮世界杯比赛,新华社国庆 70 周年庆祝活动 24 小时直播得到了应用。

同时,温江涛和团队也在和内容制作商探讨,把这项技术更好地运用在体育、音乐等领域。“我们希望能够搭建起一个生态系统,更好地建立面向下一代的视频技术。”

图 | 温江涛接受 DeepTech 采访(来源:EmTech China)

DeepTech 在会后采访了温江涛,就人工智能、5G 背景下的 “视觉感知” 相关问题进行了交流(以下为不改变原意的采访实录):

DeepTech:从广播电视一直到网络数字图象发展非常速度快,现在已经到 4K、8K、16K,你怎么评价这种趋势?

温江涛:首先肯定是很快,我觉得最核心的几个要素现在已经具备了:首先是带宽,其次现在比较流行的一些短视频软件都允许用户直接在手机上进行编辑编码,从而大大提到用户生成内容的观赏价值。

但是这里有一个非常重要的问题,今天给人看的和给机器看的视频是没有区别的。今天拍摄到的绝大部分内容可能是永远不会有人看的,比如城市监控这些视频,除非调出来,出事的时候才会有人看。而有更多的摄像机永远都不会被接到显示器上去。

在将来,视频的应用是无处不在的。我们希望被人看的视频能越来越清晰,而除了娱乐以外,针对机器看的东西希望能开始重新设计一套机理让它广泛应用起来,在一些用很复杂的传感器来解决问题的地方,可以用视频来解决。但是最核心的东西,一个是成本,一个是功耗。

DeepTech:你演讲里提到的 1000000:1 等等比例,是不是主要指的就是能耗?怎么去理解视觉感知正处在三种趋势的交汇期?

温江涛:对,主要是能耗和它计算的效率。

某种程度上我不像有些专家对人工智能那么欢欣雀跃或者忧心忡忡。比如下棋下过人类,这个事情固然了不起,但是首先,它是针对一类特定的问题;这类问题都是人发明出来为难我们自己的,人工智能系统采用众多的服务器恨不得后面有一个核电站给这类机器供电。柯洁、李世石早上随便吃了点就来跟你下,所以我觉得人的效率的高的不得了。

而伴随着摩尔定律和登纳德缩放效应的终结,现有计算机处理能力既使采用针对应用的架构设计也很难有摩尔定律时代的 10000:1 甚至 1000000:1 的飞跃,能耗更是越来越高,所以我们必须找到下一个 10000:1 飞跃的方向。

我觉得最根本的东西,未来是能量受限的。在这种情况下,真正的人工智能不是用机器去挑战一个什么样的功能,或许是合成一个什么样的“器官”,用两碗豆浆就可以支撑完成一些任务。现在提到的很多机器人和人工智能可能没有关系。所以未来的话,最核心的东西不一定在电化学机理上仿真,但至少从它的系统设计的思想和概念上去仿真。

今天很多的人工智能的应用其实只要是涉及到人的一些基本功能的,其实相当复杂,视觉只是其中之一。有人在从机理上做生物芯片,试图模拟电化学反应过程或者电信号处理过程。但是我们现在想的是如何从逻辑上模拟大脑的过程,空气中有温度、触觉等等刺激,大脑是如何将之过滤掉并呈现出视觉表象的?

大脑中间的每一个脑细胞,可能都是不太可靠的。但是大量的东西结合在一起就变得可靠了,我们希望这些东西能解决一些问题,如果大量部署,那么就会非常便宜而且非常低功耗。可能激光雷达要卖 2 万美元,而这个东西只卖 25 美分,但是我们可以放在很多地方。比如让老人用的轮椅具有避障等安全功能,如果在轮椅上装激光雷达那成本太高,我们可以装很多小的、便宜的摄像头。

我希望在价格、功耗、延时和性能之间做一个权衡取舍。一些不需要高精度的地方以成本和功耗为主,不断再去提升性能。

隐私方面,比如我想在停车场拍车牌,除了拍到车牌以外,还会拍到其他那些东西,比如驾驶员的脸之类的,这就涉及到隐私问题。假如我做一个摄像机,它唯一的功能就是识别车牌。那么,这个摄像机可以抓拍任何地方,大家觉得很安全,不怕被泄漏隐私。

DeepTech:除了在轮椅上以外,你设想的产品还会用在哪些领域?

温江涛:一些低速的机器人,比如仓库里面的,它有一个基本固定的路线,不需要走很快,但是这过程中可能有东西掉下来,周边的工人需要躲避等等场景。

这样的一些环境是可以很快应用的,假如成本做得很便宜的话,我们可以装很多,它协同工作的时候会很可靠,同时这堆东西的出错概率非常低。

DeepTech:这个思路有没有别人也想出来或者他们正在做的?

温江涛:针对人类视觉的想法有很多探索,但是我们这样定义视觉感知单元(Visual Perception Unit),而不是视频处理单元(Video Processing Unit),或者人工智能芯片,应该是没有了。这是由应用需求、技术发展两者的综合效应决定的一个可能是最有效的方式。我们的输入是 vision, 不是先将其重建为 video. 目标是 perception,也不是处理。事实上现有很多神经芯片用模拟电路仿真深度学习的一些方法,由于架构和算法脱节,可能不会实现非常理想的效果。

DeepTech:5G 对视觉感知领域会带来什么影响?

温江涛:因为 5G 带来了对消耗带宽的需求,所以 8K 今年得到了及其大的重视。我们做了世界杯男篮的转播,“十一”的时候我们做了新华社 24 小时的直播。8K 超高清视频通过 5G 现网实现直播,这是世界首次,我们也非常荣幸能和上下游的合作伙伴一起实现这些世界第一。

另外一些 5G 的物联网或者机器人的应用可能要到明年或者更晚一些。目前来看,普通消费者可能感觉不到 4K、8K、16K 的区别,但是有几个地方是需要的:安防领域,摄像头的位置和数量是有限制的,很多装的非常远,在建筑物顶上,又要看到很宽的范围,这就需要超高清晰度,这是 8K、16K 的硬需求,甚至这些都还是不够的,可能需要十亿像素级别的分辨率;第二个是体育领域,在转播中因为受机位限制,无法设置过多的 4K 相机,而在一个大的场景里用 8K 去拍,不用剪来剪去,大分辨率可以支持自动剪裁,不需要增加成本和效率。

DeepTech:技术本身有没有一些挑战和瓶颈?FPGA 是不是一个有效的方案?

温江涛:最大的瓶颈在于资源的调度和高性能的计算,还有一个是数据的传输,这些都是要动态控制的,是挺难的事情。

FPGA 有一点儿像 CPU 和 GPU 中间的一种,可以用一些硬件的办法去优化一些核心的处理能力。这一类东西适合在今天人工智能里面做深度学习的训练。但是对视频来讲,输入没有办法把它做得很规整,所以它并不适合做很多的视频处理。

我认为你只要同意视频未来有重大的需求,CPU 和 GPU 会遇到巨大的瓶颈,一定会有新的架构出现才可以。

DeepTech:你在美国工作有十多年了,有很多专利被采用,包括在 UCLA 里面最大的专利授权协议。能不能谈一下你是如何推动些学术研究落地的?

温江涛:实际上今天去看那些发明,不是在做了科学研究或者理论之后,再想这个东西可以在什么地方用。假如你真正很厉害的话,需要先找到要解决哪一些问题,然后再一一去找解决方案。为什么有些研究不太能落地,就是因为做了一些不需要的抽象,解决了一些其实不需要解决的问题。

麻省理工学院 Bob Gallager 教授说过,做教授最基本的职责是帮助学生去找到一个最简单的没解决的问题,我觉得这里每一个都是关键词。

所谓硬核的科技,这些东西需要一定的流程和培育方式,一些方式不光是在课本里。我觉得目前中国对硬核科技或者是真正有价值的技术的认识在不断改变。