大数据时代的多媒体计算,如何用机器快速识别图文?

出品:“科学与中国”院士专家巡讲团

制作:中国科普博览

监制:中国科学院部工作局中国科学院计算机网络信息中心

近年来,我们常常听到“大数据”这个词语,健康医疗大数据、人工智能大数据、大数据时代……相信大家对这些说法都不会陌生,那么大数据到底是什么呢?

1949年夏天,信息论创始人香农拿出纸和笔画了一条竖线,然后从下往上写出10的0次方,10的1次方……一直到10的13次方,然后他把竖线标记为比特存储量,他在竖线的右边又写下了一些物品,他认为这些物品所蕴含的信息量与左边那些数字对等,而且只有信息量非常大的一个物品即国会图书馆,所包含的数据量能与10的13次方到10的14次方之间的数据相称。

香农生活在60多年前的那个时代,他无法畅想到,作为信息的主要载体,图像和视频在大数据中占有很重要的地位。例如现在,人类每年约拍摄38000亿张照片,图片数据不停地被创造,不停地被复制;另外,我们国家安装的监控摄像头已经达到3000万台,每年大概产生数万个PB的数据量。

对于这些数据,传统的途径就是人工分析,需要人反复去观看,也会出现很多图文不相关的问题,这就比较费时费力;而现在我们可以借助机器完成这项工作。

首先,我们需要采集大量的专业人员标注过的高质量训练样本图片,然后通过提取一些底层的视觉特征,通过一些分类器的学习,得到一系列的分类器,对一个给定的新样本,我们让这些分类器来识别这些图片里面所包含的语义内容。

但是,在这个过程中也有许多问题需要解决。首先如何克服标注样本缺乏的问题?一个可能的途径就是以数据理解数据,并且选择出有限的最具区别性的特征来表示数据;再者,数据的底层特征与高层语义之间存在鸿沟,我们要通过底层特征的学习,学到一些基本的概念,然后再建立概念模型与群模型,最终对高层语义进行推理,同时利用上下文的情景知识,来帮助我们对图像视频语义的理解,也可以利用一些简单的模型,分布式计算软件,以及GPU加速的这些途径克服模型复杂计算低效的问题。

“科学与中国”院士专家巡讲活动是中国科学院学部发起,由中科院、中宣部、教育部、科技部、工程院、中国科协共同主办的高层次公益性科普活动。精彩内容关注“科学与中国”官方网站(cs.kepu.cn)。中国科学院学部工作局为网站委托单位,中国科普博览为网络传播合作伙伴,中国科学院计算机网络信息中心提供技术支持。