假设你是一名 90 后,你猜爷爷的爷爷,在 20 岁时,过着怎样的生活?以 20 年为一代人(解放前普遍生育早),从 100 年前到现在,正好五代人。那么,1920 年,爷爷的爷爷,过着怎样的生活?
近日,一名 90 后北京小伙,耗时 7 天,用 AI 技术修复一则短视频。视频再现了百年前老北京的生活日常,一经发出斩获 60 多万个微博点赞,并被人民日报和央视新闻转载。
看到这里,你是否有很多问号:一百年前的视频,竟然还带颜色?
这要拜前文所说的小伙所赐,他叫胡文谷(以下称“大谷”),大谷告诉 DeepTech,他目前在纽约做独立游戏开发师,同时还是一位 B 站 UP 主。
图 | 大谷
与其说是给视频上色,不如说是修复视频。下图是修复前后对比图,可以看到,差别非常大。
图 | 修复后
图 | 修复前
3 种工具,耗时 7 天
据大谷介绍,修复中,他一共使用三种 AI 工具,第一种是 DAIN,用来补帧;第二种是 DeOldify,用来上色;第三种是 ESRGAN,用来扩增分辨率。
补帧工具 DAIN
以补帧来说,原视频非常卡顿,每秒只有 6 到 10 帧,补好后每秒增加到 60 帧左右,流畅度也变高很多。
大谷使用的工具叫 DAIN,DAIN是(Depth-Aware Video Frame Interpolation,深度感知视频帧插值),是来自上海交大的一个开源插帧算法,它可以把 30fps(Frames Per Second,画面每秒传输帧数)的视频,插帧到 480fps,这比很多手机的慢动作录像帧率还高。
图 | AI 补帧工具 DAIN 截图
上色工具 DeOldify
在视频上色方面,大谷解释说,人物服装和街边场景,未必真的就是这种颜色,这是 DeOldify 通过数据库的训练后、自己认为应该这样上色。
尽管如此,DeOldify 还是存在不足,一是精确度难以保证。在颜色修复上,虽然大谷使用 DeOldify 三个预训练模型中最稳定的 Video Model,呈现在最终效果上,颜色饱和度依然偏低,抖动也很剧烈,远远无法达到手工胶片上色的精准度。这也说明,AI 再好也无法彻底取代人类。
图 | AI 上色工具 DeOldify 截图
扩增分辨率工具 ESRGAN
在扩增分辨率上,大谷使用 ESRGAN 修复后的视频分辨率,可以达到 4K 级别,远比修复前清晰。
图 | AI 扩增分辨率工具 ESRGAN 截图
提到 ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks,增强型超分辨率生成对抗网络),就不得它的前身——SRGAN(Super-Resolution Generative Adversarial Networks,超分辨率生成对抗网络)。
SRGAN 由香港中文大学多媒体实验室主导开发,其论文最初发表于 CVPR 2017,SRGAN 可以在单一图像超分辨率中,生成逼真的纹理,但是放大后的细节,常常带有伪影。
因此,原作者在 SRGAN 基础上,改进了网络结构和判决器的判决形式,并对用于计算感知域损失的预训练网络做了更新。
更新后的 SRGAN,被命名为 ESRGAN,ESRGAN 的论文亦收录于 CVPR 2018,后者在亮度一致性、和纹理恢复上表现更惊艳。
下图为 SRGAN 和 ESRGAN 的效果对比图,可以看出,ESRGAN 把动物胡须展现得更细腻。
图 | SRGAN 和 ESRGAN 的处理效果对比(来源:ESRGAN 论文)
正是凭借 ESRGAN 对于细节的处理,才有大谷所修复视频中的鲜明对比。
视频中的音效,也很契合场景,比如寺庙上香时的音乐,很有梵音袅袅的味道。
修复期间,还有一个小插曲。他因为纽约疫情,去女朋友家“避难”,只带了台旧电脑,为保障修复效果,特意借来女友的高配显卡主机。
即便如此,短短十分钟的视频修复,竟然耗时 7 天,具体过程之繁复,丝毫不亚于针线活。
视频中,“爷爷的爷爷们”看见摄像机,有点类似当代人看见 UFO。
有人被吓得像见鬼似的飞逃。
露天市场的一位小伙子,看得太入迷,以至于站得像个雕像。
有网友说“每个人脸上都是新奇、又不敢接近的表情”,形容得真恰当。
视频还展示出老舍《骆驼祥子》中、拉黄包车的场景。
坐车的人估计来自大户人家,跟在黄包车侧面跑的,应该是类似家童的角色。
下图这位乘客,边上跟着的家童,看起来年龄更小,相比前一位家童扶车跑,他得在后面拽着车,才能勉强跟上。
相比他们,今天中国的小孩,人人有学上,实在是幸福。
视频中,还有见面行礼的片段。
第一种是作揖,很多孔子雕塑,都是这种造型。
第二种是清朝流传下来的 “打千儿” 礼,一般是左膝前屈、右腿后弯,上体稍向前倾、右手下垂。
第三种是当时见到汉人女子时行的礼,两人相对、双膝微蹲,并且要蹲两下。
视频中有些人物的后代,或许就生活在你身边。一百年来,人们的着装会变、礼仪会变,但狗子似乎一点没变。
今天的狗,依然喜欢和人亲近,依然每天都得路边溜溜。
图 | 逗狗
红白喜事的场景,也有涉及。
有眼尖的网友认出,殡葬队伍走过的地方,是北京东单北大街西总布胡同西口,如今这里是繁华的北京二环。
图 | 2020 年 3 月 13 日北京二环(来源:IC photo)
“不会画画的作曲家不是好程序员”
这次视频,也让大谷火了一把,尽管他在美国,但是来自国内的合作邀约纷至沓来,他已经熬了几个通宵。
生活中的大谷,会音乐、会美术、会编程。他作为独立游戏开发者的身份渊源,则可追溯到幼时。
90 后的大谷,三岁就开始玩游戏。他在加拿大做摄影师的亲戚,还曾把他玩游戏的照片,展示给外国人,告诉他们中国的计算机正在从娃娃抓起。
小学六年级,大谷接触到 Flash 软件,并买来图书自学编程。
初中,他已经可以开发游戏。
后来,大谷考入中国人民大学读艺术管理。大学时,他开发出国内首个个人研发的原创 2D 横板动作类游戏《Eddy 紫》,从程序、到剧本、到美术、再到音乐,都是他一人担纲。
图 | 游戏《Eddy 紫》(来源:胡文谷数字艺术作品集)
本科结束后,大谷到美国留学,就读于纽约视觉艺术学院计算机艺术专业,毕业后留在当地做独立游戏开发。
对于做视频修复,大谷表示自己是误打误撞:最初学 AI,是想给游戏开发节省时间,后来发现,AI 在社会人文方面,也有很大应用。谈及未来,他表示,后续会授之以渔,制作修复视频的教程。
可以说,大谷以一己之力,让更多人知晓视频修复这一技术。但涉及到全行业的视频修复,依然任重道远。
“抢救”老电影迫在眉睫
从 1895 年电影诞生至今,全球电影仅有 10% 的拷贝留存。
基于此,业界在视频修复方面,也开始有所行动。DeepTech 从爱奇艺了解到,其自主研发的 ZoomAI 智能增强技术,已经修复《红高粱》《三毛流浪记》《地道战》等 49 部经典影视剧。
该技术可批量修复视频,对比人工修复,效率提升 500 倍,修复后的影片,光影色彩更细腻,并呈现出“修旧如旧”的观感。即虽然你能看出这是部老片儿,但却有着堪比新片的清晰度和流畅度。
如 1965 年的经典电影《地道战》,修复后的字幕和庄稼地等细节,都变得更清晰。
截至 2012 年,《地道站》已创造 30 亿人次的观看纪录,足见经典老片之魅力,以及修复之必要。
还有很多国产老片,比如 86 版《西游记》、98 版《还珠格格》,虽然历经几十年,至今仍是暑假神剧。但是,这两部剧都已经糊成这样。
图 | 86 版《西游记》截图(来源:网络)
图 | 98 版《还珠格格》(来源:网络)
相信这些经典修复之后,观众会更加期待。
现如今流量当道,有些明星没有作品、仅凭粉丝量就可以出道。但各大电视台,均在暑假流量高峰期复播老片,也说明好作品,扛得住“岁月的毒打”,观众的眼睛也是雪亮的,演技好不好,一个镜头就见分晓。