12 月 10 日 - 11 日,由浙江省委人才办、绍兴市委市政府、《麻省理工科技评论》主办的全球青年科技领袖峰会暨《麻省理工科技评论》中国 “35 岁以下科技创新 35 人” 颁奖典礼在绍兴上虞举行。“35 岁以下科技创新 35 人” 2020 年中国榜单正式发布。
在现场,清华大学计算机科学与技术系教授温江涛通过主题演讲,分享了超高清视频技术的未来走向和智能化趋势。
“如今,超高清视频已在中国各地得到了重视,将形成一个非常巨大的产业,规模甚至要超过最乐观估计的人工智能产业一个数量级。预计到 2022 年,中国超高清视频产业总规模将超过 4 万亿元,会带动芯片、显示面板、视频处理算法、网络传输等产业链各环节相关的技术生态。” 温江涛表示。
继数字高清化技术后,超高清视频将带来视频采集、制作、传输、呈现的新一轮重大技术革新。
温江涛介绍,超高清视频技术,最核心的部分在于编码的软件和编码的设备,需要具有相当大规模的数据传播和高速计算能力。
其团队的 8K 技术产品和处理系统,目前是业内屈指可数的广播级软件编码系统,在 2019 年国庆 70 周年和今年的两会期间,以及国家大剧院的一些重要直播方面,都已经成熟应用。
此外,8K 技术还是一种更有效生产 4K 和其他高清内容的办法。例如高级品牌、运动队、高级酒店、度假村等需要超高清传播素材,还有滑雪比赛、方程式赛车等赛事高清直播等。8K 技术除了可提供制作高清内容之外,也能让 4K 内容呈现更高质、更丰富的色彩,具备更高的动态范围,是一种保持画面优良质量的有效途径。
关于其他创新应用,温江涛分享了其团队做过的一些测试。其中一个案例是在一个场景里面提供超过 10 亿像素的分辨率,这样,既可以看到场景的整体,同时也可以开大量的窗口,把数公里外的任何局部高清放大,这能够延展出很多有意思的功能,比如检测地震区域的受灾损害情况。
8K 超高清设备来捕获超高质量影像,加上智能识别的技术很快监测出损害程度,飞机在五公里、十公里上空飞过,就能识别一个大概尺寸在十厘米的地面目标。
另一个案例是用 8K 技术直播世界级的滑雪比赛。团队用一组相机系统覆盖整个滑雪场的赛道,自动跟踪运动员从山上滑下来,采集到正面高清的视频。另外,因为运动员速度太快,距离较远,经常会拍到了不清晰的画面,但结合深度学习实时处理算法的技术,通过多个镜头的组合,最终可以得到非常清晰的影像,解决聚焦不准的问题。
之后还能用智能合成的技术,把多个人比赛过程直播合成在一个图里面,产生同时竞技的效果,让视觉体验震撼得到极大的提高,同时,也可以提取他们的姿态分析路线,分析他们是否选择了合理的路线。
“超高清视频的实现也会面临很多挑战。比如,需要实时处理大量数据,有的数据甚至大到超出我们常规超算的一些应用场景、应用范围,视频数据也有很大的随机性,很大的时空关联度等等。” 温江涛说道。
据了解,现阶段国内在超高清产品设备方面,短板比较明显。首先,国产设备很多不符合专业应用的要求,比如说散热不好,稳定性不好,野外拍摄的时候不能适应各种恶劣条件的要求,同时,国产设备的镜头艺术感、色彩不能很好满足苛刻的拍摄需求,也经常出现 “吃光” 现象等。
其次,中国在核心技术专利、元器件、应用场景解决方案方面都比较欠缺,例如在全球首台 8K 全业务转播车上的 2400 余套设备中,只有 15% 实现了国产化。
温江涛谈到,“很多国外先进的超高清设备很贵,去年做国庆直播的时候用上了世界上仅有的 8K 电视摄像机之一,这样一台摄像机价格甚至可以在全国任何地方买一套房。另一方面,我们做超高清的视频处理,以 8K 为例,也已经遇到了半导体和计算机终端众多的掣肘问题,比如摩尔定律失效,在功耗和处理能力方面临面临众多挑战。
关于超高清技术的未来,温江涛认为该技术正在推动产生新的视觉革命,他介绍了两大趋势:
一方面,传统用单一的传感器,比如说 8K 的传感器,4K 的传感器甚至今天有 12K 的商业化设备可以买到,但未来一定是多相机、多传感器的阵列组合,可能包含多种频谱多种信号的处理。
另一方面,从超高清图像获取到传输再到处理到应用,这个过程是经典的 IT 过程,但是在过程中信息的流动是单向的,在新的智能图像系统架构里,未来需要实现可动态调整、自适应的闭环,才能大大降低数据量、能耗和延时问题等。
在视觉技术领域,目前已涌现出众多高科技、硬科技公司,以及很多做AI芯片、类脑计算、边缘计算,不少方向还可以进一步革新。温江涛表示,实际上当下机器视觉的算法好多都是基于图片的算法,这种思路其实有些误区,因为我们人类看一张照片的时候,人眼对大脑的刺激,并不是一张静止的图片序列,人的很多智力源自记忆。
今天人工智能比较擅长解决的问题,基本都是需要人花精力去学习的东西,比如外语、下棋、开车等,需要学说明有人教,有人教也说明能教给机器,但是那些不需要学的能力,恰恰是机器最欠缺的部分,也是今天 AI 技术还不够好的原因之一。他分享了团队的一个理念:人类的归人类,机器的归机器。
温江涛最后总结道,第一代数字传感的架构是 CCD,于 1969 年发明,在 2009 年得到诺贝尔奖;第二代是 CMOS,目前用得非常普及,在车、手机等产品中。目前其团队的工作重点,将会持续攻克更多超高清视觉处理的核心技术,打造全新的智能视觉感知架构,深入探索继 CCD 和 CMOS 之后的第三代数字图像发展方向。