大数据如何深刻的改写着你我的未来?

挖掘大数据

数据是无处不在的,只要人类的活动依旧,且观测行为始终存在,那么数据就会不断产生。一旦数据被记录下来,它就会成为历史的一个投影,被保存在各种各样的信息媒介中。不过在互联网时代,数据早已挣脱了简单的数字束缚,它不仅可以是符号、文字、语音,更可以是图像或视频。

数据之丰

美景极致之时,我们会拿起手中的相机,将这种美永久定格。风景以照片的形式记录下来。此时,照片的底片,或者数码相机的存储卡就是一个存储数据的媒介。没有相机的时代,古人会以文字的形式记录,马致远的“枯藤老树昏鸦,小桥流水人家”、李白的“飞流直下三千尺,疑是银河落九天”……此时的媒介就是纸上的这一段文字。

如今,我们的数据记录媒介更加多样。比如,我们在超市购物的数据,会以文字的形式,被保留在超市的临时数据库中。而健身达人的夜跑经历,则会被手机或是周围的监控记录。试想一下,全球70亿人口每分每秒都会产生多少数据,而这些数据将会被如何记录或是开发呢?

在互联网技术、社交网络媒体,以及硬盘存储能力高速发展的今天,“记录”这一行为正在变得越来越简单和频繁。人们在网络上的任何行为,如在微博上发的消息、微信朋友圈中的好友、在京东购买的商品等等,都有可能被实时保存下来。很显然,当用户的数量达到一个非常巨大的数值时,这些用户每秒钟产生的数据都是一个天文数字。

数据之惑

面对如此巨大的数据量,对于针对用户的服务提供方来说,其价值是不可估量的。但如果数据的所有方缺乏一种有效的应用策略,那么他们手中的数据将变得一文不值——数据和信息是不可分离的,数据是信息的表达,而信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才会成为信息。

其实从信息索引的角度看,我们在面对信息量爆炸和信息量极度匮乏这两种情况时,如果没有较好的方法,其结果几乎是一样的。如果今天没有类似百度、谷歌这样的搜索引擎,那我们应该怎样在互联网上找到所需的信息或是想要的答案呢?即便我们非常确定,想要寻找的内容一定存在于网络之中。最后的结果想必是确定的,面对如繁星般众多的网页,我们束手无策,找不到自己真正想要的答案。

在互联网时代中,如何针对如此庞大的用户数据,构建一个合适的、有价值的信息提取方案,就成了一个亟待解决的问题,而这个概念就是大家耳熟能详的“大数据”中的一部分——数据挖掘。

数据之力

“大数据”是一个近年来才被提出的概念,它是指在不对已有数据进行抽样提取的情况下,将原有数据作为整体进行处理的方案(当然这只是一个比较宽泛的定义,有兴趣的读者,可以关注由维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》)。而这样的方案,不仅能让我们拥有更强的决策力和洞察力,而且还能大大提升流程优化能力。

因此,大数据技术的战略意义不在于掌握多么庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

为了达到处理整体数据的目的,近年来,不少科学家在不同层面上提出了许多非常有趣的新兴技术。比如从数据处理角度出发,有分布式处理方法MapReduce。这是一种编程模型,用于大规模数据集(大于1TB)的并行运算。我们可以将它简单地表述为,将非常大的输入数据分成多份,然后并行处理,最后将并行处理的所有结果整合成最终结果。这项技术比较著名的应用工具有Hadoop和DISCO等。再从数据库角度看,NoSQL数据库以其在信息索引、流媒体存储等方面的高性能,如今已被广泛应用。随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站时,已显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,比较著名的NoSQL数据库有MongoDB和CouchDB等。

数据之术

在现今互联网大环境下,如何应用“大数据”概念,提取有价值用户信息,从而实现利润最大化呢?除了上述底层结构化的技术支持外,有效的数据挖掘(Data mining),甚至是机器学习(Machine learning)算法都是必不可少的。这类算法大多和数理统计学密切相关,其理论基础也多建立在数理统计学之上。这些行之有效的算法,都有一个相通的基本理念:以史为鉴,即通过历史数据去推断当前甚至未来。

2000年,来自美国伊利诺伊大学香槟分校(University of Illinois Urbana Champaign)的韩家炜教授等人,提出了关联式规则(Association Rules, AR)这一算法,它可从大量数据中挖掘出有价值数据项之间的相关关系。以网络购物平台为例,它拥有着巨量的用户网络购物信息,比如用户购物历史数据:购买时间、商品名称、种类等等。那我们该如何根据一个用户的购物历史向他推荐有可能感兴趣的商品,从而提升用户体验,甚至是提高平台收益呢?这就是关联式规则算法的用武之地了。

首先,我们可以从所有用户购物信息中提取他们的历史购物信息,找到用户先后购买的商品,比如统计在购买手机之后又购买手机套和充电器的订单数目,从而推断出用户在购买手机后,购买手机套或充电器的置信度(可将其简单理解为概率)。那么根据这些信息,我们就可以在今后,有计划地向已购买手机的用户,推荐手机套或者充电器。

当然,这只是一个最简单、直观的例子,在现实应用中,我们还要考虑许多更为复杂的因素。比如考虑某用户的个人信息,并将其纳入参照范围,从而使推荐的商品更贴近用户本人的偏好。

此外,贝叶斯网络(Bayesian Network)算法也是目前较为主流的技术之一。它是一种基于概率推理的图形化网络,是为了解决不定性和不完整性问题而提出的,而贝叶斯公式则是这个概率网络的基础。

贝叶斯网络是从数理统计中借鉴而来的,正如前文所述,数理统计是当今数据挖掘、机器学习乃至人工智能的基石。没有数理统计的基础,当今应用在各个领域中的数据模型将缺少理论支撑。简单地说,贝叶斯网络算法能够告知我们如何利用新证据修改已有的看法。换言之,我们可以通过已知的信息,借助贝叶斯网络算法,对未知信息进行更新。

我们还是以在网络购物平台购买手机为例,下图中三个圆形代表三个事件,而它们之间的箭头则代表事件间的因果关系。比如箭头A表示已知一个用户购买了手机,以及他同时购买充电器的概率。通过公式计算,我们便能得知这三个事件之间的联合分布,从而更好地做到概率推理。由此可见,贝叶斯网络对于解决复杂问题的不确定性和关联性有很大的帮助,而它也在多个领域中获得广泛应用。

当然,以上两种算法仅仅只是现有算法的冰山一角。在当代数据挖掘、机器学习领域中,人工神经网络、线性回归算法等作为数据分析的解决方案,也占有一席之地。尤其是目前最热门的深度学习技术框架,不仅能解决传统数据分析中所不能解决的问题,而且还能在人工智能领域有新的突破。

如今,大数据已在经济、政治、文化等各个方面产生了深远的影响,并深刻改变着你和我的未来。如何让大数据真正诠释4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),也许正是我们在今后应当考虑和解决的重要问题。

作者:傅凯群

来源:《科学24小时》2015年07期