大数据有未来吗?

第一财经:大数据的未来

在2019年1月举行的CES上,IBM宣布推出IBMQ System One,这是业界首次通过基于云的IBMQ体验,为人们提供可编程的通用量子计算。

距离美国《自然》杂志在2008年9月的封面专刊中首次提出“大数据”的概念,至今刚好过了10年。在这10年间,大数据由一个学术界的新名词演变成决定人类工作和生活方方面面的庞大系统。

什么是大数据?市场调研公司IDC从4个维度的特征来定义它,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)。

简单说,就是当数据量超过了单台计算机的处理能力时,就形成了大数据。它的出现本身就是互联网世界扩张的必然结果。

搜索引擎Google为了解决日益膨胀的海量数据存储和处理问题,成为大数据技术开发的先行者。当大数据的基础架构搭建完成之后,后来的大数据应用有了更大的想象空间。2013年大数据技术开始向商业、技术、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此这一年也被称为大数据元年。

云技术的主流化让中小公司在不需要花巨额成本搭建数据系统的情况下,便可以从云端远程获得大数据为自己的业务服务。大数据技术也不再是大公司的专利,它的商业机会达到空前繁荣。市场调研公司IDC预计大数据业务和数据分析市场将以年平均11.7%的增速持续扩张,到2020年在全球将达到2030亿美元的规模。

从普通的消费者产品到工业设备,几乎每件产品内都可以植入一个芯片来实现数据收集。这些带有通信能力的设备组成了物联网。在生活中,随处可见的传感器、智能手机、可穿戴设备、智能家居、工业机器人、无人驾驶汽车等物品,都可以是物联网上的一环。物联网设备之间通过数据分享,再由自动化系统组织协作,便可以让这些机器独立分析和完成一些任务。

调研公司Gatner预计到2020年有超过半数的新兴商业体都会基于物联网运行。这就对高速数据传输的稳定性提出了极高的要求。试想一下,在携带了众多传感器的无人驾驶汽车上,如果有一个出现了片刻停顿,就会造成数据传输的缺失,其后果将攸关人命。

因此,在未来的数据处理中,能满足瞬间反应需要的5G通信技术将会成为主流。5G的优势不仅在于更高速的数据传输,还能减少网络通信过程中的延迟问题。延迟是指获取对发送的信息响应所需的时间,因此5G可以实现过去4G网络下无法实现的事情。比如,通过5G网络连接机器人,便可以协调它们彼此间的工作,进一步优化工业自动化水平。

当人们身边的一切都成了数据采集器时,可想而知,数据量也将面临爆炸式的增长。依照当前的计算机处理能力,分析大量的数据还是得花上一定的时间。如果能在几分钟时间内处理几十亿的数据量,便能为公司提供更快速及时的数据分析结果。

这样的数据处理能力,只有通过量子计算机才能实现,2019年也将是量子计算机正式走向商业化的一年。

量子计算机采用量子力学原理处理计算。传统计算机中,数据存储是以“比特”(byte)为单位。每个比特在特定时刻只有0或1中的一个状态。而在量子计算中,数据以量子比特(qubit)的形式存储,量子比特是0和1的叠加状态,也就是说,它既可以是0也可以是1。这就让一个量子比特可以完成两个比特才能完成的并行运算,让量子的计算能力相比传统计算机,以指数级别增长。

Google投资的量子计算机公司D-Wave的联合创始人EricLadizinsky用了一种更通俗的比喻来解释量子计算的原理。假设你被要求5分钟内在国家图书馆5000万册藏书中的其中一本书的某页上找到一个大写字母“X”,这根本就不能做到。但如果你处于5000万个平行现实中,每个现实中的你会查看不同的书籍,某个现实中的你必然能找到这个“X”。普通计算机就是那个需要在5分钟内找遍尽可能多的书的你,而量子计算机能将你复制出5000万个,每个同时翻找一本书。

这种超快的计算速度将彻底改变所有行业。以人工智能为例,人工智能在学习时需要依靠大量的数据和运算,量子计算可以解决训练量和速度的问题,大大提高学习进程。

去年8月,摩根士丹利发布了一份32页的报告,预测在接下来的10年内,量子计算机将对油气、医疗、金融、航空、国防、人工智能等多个行业产生深远影响,换句话说,量子计算机可以在任何依赖大数据的行业发挥作用。摩根士丹利预计,高端量子计算机的市值将从目前的50亿美元增长到2025年的100亿美元。

那么,有了这么多数据到底有什么用?曾帮助Facebook建立更精确的数据分析系统的JeffreyHammerbacher在FacebookIPO时愤愤地说,“我这代人中最聪明的大脑都在思索如何让人们点击广告。”没错,早期的数据应用焦点几乎都在广告上,这主要也是因为对大数据研究最为成熟的技术巨头,其商业模式大多是依赖广告收入。

当然数据应用的潜力远不止于广告,以数据支持的商业决策也成为一种主流文化。

成立于2015年的Streetbees是一家利用大数据技术颠覆市场调研的创业公司。它的数据分析能给到企业客户诸如“哪个项目最有可能达成”“推动销售增长的核心因素是什么”“某产品是否可以进入一个新兴市场”等具有战略性的指导意见。

Streetbees的数据直接来自用户个人上传。用户可以像在社交媒体上发布信息那样在Streetbees的平台上,以文字、图片或是视频的形式更新自己的日常状态,比方说一张吃早餐的图片就包含了你在哪里吃早餐、选择哪些早餐品牌等数据,它们代表着消费者行为最真实的信息。

不过,大多数的公司都面临着同样的困境:如何把海量的、原始的、未经整理的数据转化成有价值的方案建议,指导商业行为。

“当前任何涉及数字化应用的领域都需要数据的支持。尽管那些最耗时的数据收集工作已经可以自动完成,但这还远远不够,任何好的大数据分析工具最后都需要人性化的元素。数据的购物体验就应该像你在使用Spotify一样,你输入想要的内容,它就能直接给你答案。”市场研究公司ForresterResearch的首席研究员MicheleGoetz对《第一财经》杂志说。

如何简化数据分析在商业应用中的程序,让它变得更直观更可视化而且还必须支持自然语言,人工智能可以做到。大数据公司的竞争焦点也由数据整合和分析能力转移到数据知识的呈现,即以一种通俗易懂的形式来表达数据分析结果的价值,把数据翻译成能直接被人理解的知识建议。

早在2014年,IBM就推出了基于云技术的自然语言人工智能数据分析服务WatsonAnalytics。企业客户可以直接用自然语言发问,沃森就表现得像个专业的商业顾问一样。在这个过程中,WatsonAnalytics能够自动完成数据整理,分离出有用的数据,分析得出要点和趋势,并用可视化的形式表达出来。

Streetbees也开发了类似的人工智能产品。它能时刻分析处理用户上传的数据,并总结出趋势特征。当客户有需要时,就可以直接以自然语言向数据库提问,并获得对应的解答。

加入人工智能技术的服务调研正获得越来越多大公司的青睐,Streetbees的客户包括了联合利华、百事、沃达丰、欧莱雅等大型跨国公司。去年,Streetbees还获得了欧洲最大的技术风投公司Atomico领投的价值1200万美元的A轮融资。

“接下来就是要让人工智能完成更为专业化、人性化的数据分析任务。比如可以总结一大段文字的核心要点,大量数据中反映出怎样的趋势,然后用一种讲故事的方式呈现出来。”Streetbees的创始人、公司CEOTugce Bulut对《第一财经》杂志说。Streetbees现在正在开发这种自动讲故事的产品。

当然,没有大量数据的支持,任何公司都无法完成对人工智能算法的训练和提升。对于像Streetbees这样的创业公司来说,很大一部分数据资源来自于公共数据,包括政府、世界银行和经济合作与发展组织的开放数据。Streetbees将公司总部设在英国,很大一部分原因也在于英国在开放数据方面的良好环境。

在万维网基金会针对全球数据开放程度的国家排名中,英国与加拿大并列排名第一。

英国政府早在2010年就发表了开放数据政策,并上线了data.gov.uk网站。整个项目由万维网的发明者TimBerners-Lee负责。“我们花很大的成本组建政府公共数据,如果就把它堆放在办公室里,实在太浪费了。”BernersLee当时在接受BBC采访时说。他的理想就是将数据作为一种公共资源来对待。data.gov.uk一共包括了10项服务类别,数据集从启动时的2500个,增长至目前的4.5万个。

交通部门在开放数据方面表现最好。伦敦交通局把时刻表、服务状态、运行异常通告等对所有人免费公开,总共80个开放数据源都可以经由统一的API接入,大大提高了第三方开发者使用这些数据的效率。伦敦交通局的数据显示,目前有超过600个App都在使用这些开放数据,其中也包括最受欢迎的地图交通软件Citymapper,它们为伦敦经济贡献了1.3亿英镑(约合11.3亿元人民币)。

此外,英国也希望通过开放数据吸引一些新兴技术到英国开发测试。2018年英国地形测量局公开地图数据,方便企业使用它的地理信息数据,这些数据已经用在了无人驾驶汽车的测试中。此外,使用地理信息数据来优化定位追踪技术,对于引导公共交通、跟踪供应链、规划货运路线都有很大的帮助。

尽管英国所有的政府公共部门都有自己的开放数据战略,但每个部门所提供的数据质量和开放程度参差不齐。比如一些数据会有缺失,政府开支的数据通常都是过期的—当开放数据有助于通过某项立法时,政府部门便会表现积极一些,否则便是敷衍的态度。

因此,在2017年12月,英国政府又针对开放数据提出了新的修改意见,明确规定哪些数据必须开放,以及如何保证开放数据便于人们使用。

“数据应该以一种开放并且易于使用的形式存在,这样第三方在使用数据时才能创造新的价值。仅仅开放数据是不够的。数据的质量以及获取数据的便利性是开放数据下一阶段的目标。”英国首相特雷莎·梅当时发表讲话时说。

Bulut认为不应该只是政府等公共部门具有开放数据的义务,在保证数据匿名的前提下,那些社交媒体巨头也应该把它们的数据开放给所有人。“只有这样才能实现用户数据使用的全透明化,因为数据的最终所有权属于每个人,而不是某个机构或是大公司。”Bulut说。

在Streetbees,所有参与调研的用户都能获得奖励,Streetbees把收入返还给真正为调查做贡献的普通人的做法,也让它和用户之间的关系更透明,用户可以随时提供他们愿意分享的信息,他们也很清楚这些信息会用来做什么。“用户对自己的信息如何使用完全知情。这跟Facebook那种背着用户把他们的喜好转卖给第三方的做法是完全不同的。”Bulut说。

去年3月,Facebook爆出数据泄露丑闻,惊醒了那些在数据经济下狂奔的人,用户数据隐私的重要性被提到了一个前所未有的高度。两个月后《通用数据保护条例》(GDPR)在欧盟正式生效,这项被称为“史上最严数据法”最重要的原则之一是,有数据的地方就要有保护。

数据保护要由“属地”转向“属人”。因而对于数据的保护也就不止于国界,任何企业只要在欧盟市场有业务,涉及到收集用户个人信息的,都要受到GDPR的监管。

欧洲议会在2012年1月提出要改革欧盟数据保护法规,2016年4月通过了GDPR,并给予企业两年的过渡期调整。理论上来讲,准备时间已足够充裕。可事实是,在Facebook出事之前,根本没有人把它当回事,就在GDPR正式生效前4个月,还有1/4的企业从没听说过GDPR。

“很少有公司能10 0%执行新规。”UnitedLex的首席隐私官JasonStraight对《第一财经》杂志说,他所在的公司负责为企业客户制定遵守GDPR法案的具体章程。

根据GDPR的规定,出现数据泄露问题的企业必须在72小时之内向执法机构汇报,用户个人数据是如何被收集和使用的、目的是什么,企业必须完全透明地向用户解释清楚。“很长时间以来,企业的做法都是先想尽办法从用户那里骗来数据,然后再考虑怎么利用它们,而在GDPR下,这种方式就行不通了。”Straight说。

数据来源:根据公开资料整理*代表预测

“你疯了吗?如果告诉用户我们是如何使用他们的数据,他们肯定不愿意把数据给我们了。”这是Straight听到的很多企业客户的反应。而GDPR就是要消灭这一点。

更令这些企业恐惧的一条规定是所谓的“数据获取需求”,欧盟成员国的公民有权要求浏览由企业收集的个人信息资料,这些用户—在GDPR的规定中他们被称为“数据主体”(DataSubject)—可以要求删除、修改数据,甚至让公司以任何形式寄送一份详细的数据资料以供阅览。要知道,这些数据很有可能分布在多个不同的服务器上,其格式种类更是多到数不清,有些公司可能自己都未必知道所有数据的去向。

GDPR还提出了一项颇具创新性的权利,即用户拥有“数据的可携权”,它不仅赋予用户取得个人数据的权利,还赋予用户传输该数据的权利。举例来说,用户可以要求Facebook将自己所有的个人数据打包成Twitter、LinkedIn或是微博都能使用的格式,并能传输到其他平台继续使用。

所以要做到真正执行GDPR,企业需要重新设立和规划自己的内部组织架构,以便在用户提出类似的需求时能及时反馈。

有批评人士认为,欧盟推出如此严格的数据保护法令,将有可能限制数据产业以及整个互联网行业的发展。为了合规,企业必须投入相当大的一笔成本,这也不利于中小企业的发展。而对于大公司来说,为了避免触犯GDPR,很有可能出现的趋势是限制与第三方平台分享用户数据,转而利用数据自己做新产品。

就连政府在开放数据上的态度也因敏感的数据隐私问题而变得保守起来。去年,英国开放数据的管理单位由数字服务部转到了数字、文化、媒体和体育部,象征着政府希望对数据采取集中化管理;8月,英国财政部发布的一份报告指出,政府开始质疑免费开放数据是否过于理想,以及这种做法有可能对安全、隐私造成的危害。

大数据所带来的便利以及商业价值的发挥,离不开持续的数据供给,对于真正生产数据的用户而言,把数据交给他人分析,又免不了担心隐私的泄露。有关大数据的未来,也就存在于开放与隐私间的持续博弈。

作者:姚芳沁
来源:《第一财经》2019年第01期