不懂这些技术,未来就没法证明“我是我”

 曾有学者预言,人类正在进行有史以来第二次最重要的迁徙:第一次是数万年前人类祖先走出非洲;现在,他们正面临从物理世界步入数字世界的“大移民”。

而在第二次“移民”过程中,就像人类在现实生活里对“我是谁”的循环追问,自信息文明诞生伊始,人类就非常清楚安全告知机器“我是谁”的重要性,并不断在身份认证方式上推陈出新,发明各种密码和数字证书。

然而,随着人类与机器共享的“秘密”越来越多(十年前丢手机就是换一张卡那么简单,现在意味着整个数字世界的重构),安全系数越来越大,基于密码的识别方式已日趋无力——如今,学术界也已达成共识,身份识别的下一幕,来自每个人的生物体征。

今天的智能手机——这一人类的“外挂大脑”上,已配有指纹识别,人脸识别和虹膜识别,而随着十年之后整个IOT产业的井喷,以及安防领域的日趋重要,生物体征势必成为人类分身数字世界时最严苛的身份认证。

大体来说,生物特征包括生理特征和行为特征:前者包括指纹,虹膜,人脸和眼纹等;后者对大众稍显陌生,包括步态和唇语等。这些生物特征都具备很强的稳定性和唯一性,可匹配于不同应用场景。今天,不妨从中选取几种代表性生物识别,其中有的你可能熟悉,有的不熟悉,但不管怎样,它们都将在未来,成为人类移民数字世界时最重要的关卡,也是保卫人们在现实世界安全的重要利器。

跨年龄人脸识别

抛去指纹识别不谈,人脸识别是最为大众熟知的认证方式。

其实人脸识别并非易事。人类的脸部结构存在极大相似性,且表情颇具易变性,更何况不同的观察角度,光照条件,遮盖物(墨镜,头发,胡须等)都会增加机器识别难度。

不过,当现如今AI已发展到“只要人类正常情况下1秒就能做的事,它几乎也能做到”的地步,人脸识别的技术进步也令人欣喜。AI可以将人类进化而来的“直觉系统”转为为数据分析,根据眼睛,眉毛,嘴巴,鼻子等器官特征和几何位置关系检测人脸,将待识别的人脸特征与已得到的人脸特征模板进行比较认证。

当然,得益于iPhoneX出色的市场教育工作,上面的事你可能都知道了,但颇值一提的是,iPhoneX那般“实时识别”远非人脸识别的全部,当机器记住一张人类面孔,它其实可以做到更多,比如“跨年龄识别”。

举个例子,还记得八月底,由中央电视台和中国科学院共同主办的人工智能节目《机智过人》在CCTV1周末黄金时段首播(足以见得人工智能在大众认知中的渗透度……),第一集中的“御眼重明”系统便呈现了“跨年龄人脸识别”技能,用1秒就从36张图片中选出了撒贝宁和江一燕儿时的照片。

常识是,在影响人脸识别率的一切因素里,时间是最难对抗的部分。为了实现跨年龄识别,“御眼重明”从1000多万人的2亿张人脸图片中学习了人脸的600多个特征,再搜集几万对成年人与其本人小时候照片的人脸数据,提取人脸特征后,通过双层异构网络进行特征迁移学习,找到成年人脸和儿童照的特征空间映射关系,准确率在人脸特征清晰情况下可达95%以上。

跨年龄人脸识别有什么用?举一个例子,你知道,许多失踪儿童长大后,连亲生父母都认不出他的样子,但机器认得,你完全可以想象:借助“御眼重明”系统,电影《失孤》中的父母就可以不再通过持续多年的满城寻觅,而是到公安机关录入孩子照片,机器通过数据库对比,寻找到匹配对象。

人脸识别技术,正在为这个社会带去更多福祉。

远距离生物识别

事实上,除了人脸识别,其他更“小众”的识别方式,也在不同场景下渐次绽放,譬如在《机智过人》中出现的“步态识别”。

如果你看过《碟中谍5》,一定会对电影中“最后一道安保系统”——步态识别印象深刻:它可以对生物体的身体和步态进行360度无死角扫描,识别进入者身份。

嗯,所谓步态识别,就是只通过走路姿势,在极短时间内,摄像头就可识别特定对象。不同于人脸识别需要“主动配合”,哪怕一个人在几十米外背对摄像头,机器也可通过算法把你认出来。在《机智过人》节目里,来自银河水滴科技的步态识别就与记忆大师袁梦PK,识别10个身高体型相似的“嫌疑犯”,21只体型毛色相似的金毛犬,以及金毛犬剪影,最终银河水滴获胜。

与人脸识别一样,步态精准识别,也受益于在海量数据加持下的人工智能技术。银河水滴就组建了自己的数据团队,并对约十万张不同背景下,姿势穿着各异的人形进行了精细分割标注,如今的跨视角步态识别精度高达94%左右。你可以想象,这项技术会在安防领域大有作为。

而“远距离生物识别”不只一种,除了脚下步态,来自人类嘴唇的“唇语识别”亦可发挥威力。唇语识别是一项集机器视觉与自然语言处理于一体的技术:通过机器视觉从图像中连续识别出人脸,提取口型连续变化特征,随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,计算出可能性最大的表达语句。

事实上,谷歌人工智能公司DeepMind去年在AlphaGo击败人类后,就把与人类的下一个竞赛场切换至读唇术上:他们与牛津大学的研究者使用总长超过5000小时完成了对人工智能的训练,然后使用去年3月至9月间播出的节目进行测试,结果发现,给予相同的视频素材,专业唇语识别专家能达到12.4%的正确率,而AI系统识别正确率则是46.8%,高出大概3倍。而唇语识别在国内的领跑者海云数据也已训练了超过1万小时的新闻类节目。

与步态识别一样,唇语识别在安全领域意义重大。要知道,公安系统中的视频信息量非常庞大,但很多都以“默片”方式存在,只看得清嘴型,却不知说些什么。而当机器学会“读唇术”,即可判断视频中的人讲出来的关键性内容。

总之不难发现,“远距离生物识别”正在构筑一张“数字天网”,俯视现实世界。难怪有人会说,如今人类犯罪率整体下降最根本的原因,就是技术进步提升了犯罪成本。

另一种关于眼睛的识别

当然,谈及生物识别,尤其是基于生理特征的生物识别,虹膜是一个大众熟知的名字。相互错杂的细丝,斑点和条纹,让虹膜具备天然不可复制性,相信你多少有些了解。所以今天不妨重点介绍另一种与眼睛有关,却稍显陌生的识别方式:眼纹识别。

在新一集《机智过人》中,来自蚂蚁金服的生物识别机器人“蚂蚁佐罗”迎来全球首发。后者具备金融级别的人脸识别技术,其中很重要的识别点位就是人类眼纹——在节目录制现场,“蚂蚁佐罗”成功识别同卵四胞胎兄弟的关键,就是利用了人类眼纹的唯一性。

什么是眼纹?

最通俗地话说,虹膜识别是识别眼睛中“黑眼仁”的纹理,眼纹识别则是识别“眼白”的血管排布情况(巩膜部分)。与虹膜一样,每个人的眼纹也具有唯一性,而这种唯一性也意味着,如何从普通摄像头拍摄到的图像中提取血管分布细节;如何从血管排布中提取出区分每一个人特定的生物特征;如何应对眼球反光,眨眼和眼睫毛等干扰因素……都是摆在“蚂蚁佐罗”面前的道道难关。

不过问题来了:既然虹膜识别技术已相对成熟,市场教育工作也已完成,为何还要另辟蹊径,完成对眼纹的识别探索?

诚然,虹膜识别在容错率,信息量及稳定性方面更有优势,但在工业界,“脱离成本谈技术”并非睿智之举。拿手机来说,虹膜识别需要专业硬件支持(远红外摄像头),这对智能手机的改造以及规模化商用是个挑战——这也是为什么早在90年代虹膜识别就已商用,但多年来主要应用场景只是军用和一些特定领域。

另外,人类虹膜的采集过程需要用户较高的配合度,这对普通小白用户来说学习成本更高。相较之下,眼纹识别对摄像头没有特殊要求,手机前置摄像头就能满足要求,采集过程中只需要用户自然看着手机就可以。所以,从用户体验和成本上来说,都更有利于规模化商用和大众普及。

那么下一个问题是:眼纹识别的应用场景有哪些?

如你所知,对于蚂蚁金服这种互联网金融服务巨头来说,身份认证是无比重要的环节。目前眼纹识别最重要的应用场景,就是通过眼纹识别叠加人脸识别,在不增加用户负担情况下,对识别对象进行多维度交叉验证,提高识别的准确度和安全性。目前,蚂蚁金服研发的眼纹识别技术还是实验室产品,但被业内视为是中国或者说是全球生物识别技术研发的标志性突破。“蚂蚁佐罗”今年的工作重点和目标,是将应用于线下场景的眼纹技术也能基本研发成熟并开始试点。要知道,人脸识别的线下金融级应用场景,譬如刷脸支付,用的是1:N验证,即从N张照片中找出相符的一张,这比1:1验证的难度要高,出错概率也会大一些,而在叠加眼纹识别后,除了提高准确率,还能大大提高1:N中N的数量级。总之,叠加了眼纹识别后的面部识别,可能是人们迈向虚拟世界最安全的通行证——要知道,“蚂蚁佐罗(ZOLOZ)”的读音,与西班牙语“SOLOS”相同,而“SOLOS”的古意,正是“ONE”和“唯一”。

结语:“无密码”社会的来临

今年2月,科技媒体《MIT科技评论》公布了2017年全球十大突破性技术榜单,将蚂蚁金服、旷视科技、百度人脸识别技术纳入榜单,理由是:作为全世界首批上线人脸识别技术的国家,中国的人脸识别技术精度已达到金融交易的级别,刷脸支付进入成熟期。

嗯,时至今日,没人会怀疑,中国生物识别技术已整体性领先世界,且如上所述,中国拥有全球最丰富的识别方式和应用场景。而值得一提的是,《机智过人》中出现的人工智能团队,都已在各自领域达到国际领先水准(蚂蚁金服是唯一一家掌握眼纹识别核心技术的公司;银河水滴在步态数据和算法方面处于世界领先,户外步态数据库超过第二大数据库近100倍),也算见证了中国当今最新锐人AI技术的崛起。

最后想说,其实纵观整个人机交互的历史,就是一个人机交互难度下降的过程,在未来,随着生物识别的日趋主流,人类与机器之间的“信任关系”势必将迈向一个新篇章。

我相信会有一天,“密码”将成为过去式,人类历史上那些与密码惊心动魄的故事,也将成为未来博物馆讲解员的谈资。我也相信,就像“无现金”在中国的飞速普及,人们期许中的“无密码”社会,也将在中国率先来临。