马云say yes 马化腾说“需谨慎”,数据中台究竟是什么?

前有阿里雄心勃勃的数据中台战略,后有马化腾称“腾讯不会任意打通数据”的谨慎态度,近几年,数据中台作为“大数据的下一站”,成为业界热议的话题,众多实力雄厚的互联网公司和银行等金融机构都频繁提起这一概念。

图丨各大互联网公司中台体系建设(来源:华创证券)

那么,数据中台究竟是什么?为什么它会如此为大公司重视?它又是否是大公司的专利?在数据技术时代,它又将带给不同公司怎样的启示?

一个不到 7 人的团队惊艳了阿里

数据中台概念最早于 2015 年年底被阿里巴巴首次提出,是阿里雄心勃勃的中台战略的核心之一。2015 年年底,阿里巴巴集团对外宣布全面启动 2018 年中台战略,构建符合 DT(Data Technology,数据技术)时代更具创新性、灵活性的“大中台,小前台”组织机制和业务机制。

根据阿里中间件首席架构师钟华在其书中的说法,“中台将集合整个集团的运营数据能力、产品技术能力,对各前台业务形成强力支撑。”

他介绍道,阿里会在当时的时间点做出这样的决定,源于一次商务拜访。

2015 年年中,马云带领阿里的高管们拜访了移动游戏公司 Supercell。Supercell 以《海岛奇兵》等游戏知名,号称是世界上最成功的移动游戏公司。

Supercell 允许由 2 到 5 个人,不到 7 个人的小团队自主创新,以最快的速度推出公测版,检测游戏受用户欢迎的情况。2016 年 6 月腾讯公司以 86 亿美元收购了员工数不超过 200 人的 Supercell 公司 84.3% 的股权,每一位员工人均贡献值超过 3.54 亿人民币。

必然有很多公司想要模仿这样成功的模式,却总是达不到相同的效果。钟云认为,这是因为那些公司缺乏 Supercell 所构建的中台,业务得不到有力的支撑。Supercell 将多年实践中积累的科学的研发方法和相关技术集成为一个完善的中台体系,这样才能支撑这些区区几个人的组成小团队在短时间内就能研发出一款新游戏,快速上线测试,探知用户喜好,把握市场。

Supercell 的模式给阿里高管们带来极大的震撼,他们开始反思信息时代的公司架构究竟应该是怎样的,怎样才能将公司的各个部分、将公司的资源有机结成在一起。此行之后,阿里巴巴的领导层下定决心进行组织架构的调整,并正式启动中台战略。

数据中台并非新生事物

在阿里庞大的中台战略中,数据中台的建设就是核心之一。它旨在为阿里生态中的数据提供统一的接口,承载集团数据中心的工作,核心任务就是建设全域大数据。

2017 年云栖大会阿里大数据分论坛上,阿里的高级技术专家张磊介绍到:从内容上看,数据中台管理和运维着阿里巴巴集团最核心的基础数据;在技术上,它覆盖了从数据采集、计算加工到数据服务、数据应用等消费链路上的每一个环节,为阿里生态中的业务,用户,中小企业提供全链路、全渠道的数据服务。

图丨阿里巴巴数据中台全景图(来源:https://www.sohu.com/a/201340357_354988)

从上图所示的阿里数据中台的全景图上可以看到,整个阿里巴巴数据中台呈现了“四横三纵”的体系结构。

其中的三纵分别是统一计算后台(上图最下方紫色模块);第二部分是统一数据中台(上图中部无色模块),第三部分赋能业务前台(上图上部红色模块)。最下方的垂直数据中心负责数据的采集接入。这部分输入的数据主要包含两方面:第一部分是按照业务状态接入的企业内部的数据,例如淘宝,天猫的数据等;第二部分是根据业务需求从其他数据源爬取或采购的数据,如天气数据等。

接下来,这些数据集成到以业务板块,业务过程和分析维度为架构构建的公共数据中心 OneData。最后,基于 OneData 公共数据中心,上层的数据萃取数据中心根据业务需求或自然对象结合萃取标签建设例如“消费者数据体系”的不同的数据体系,构建 OneID 体系。这三部分组合在一起就构成了阿里开放的,面向应用的统一服务中间件 OneService。数据经过 OneService 的深度加工后可以更好地发挥它的价值,新的业务可以简易方便地建立在数据中心之上。

现在,阿里内部数据平台上已经有几十种不同的数据产品,每天有来自不同部门的上万名员工使用这些数据产品进行业务分析,做出决策。

可以看出,数据中台是一个统一的数据管理系统,它的目标是根据企业的业务需求等制定统一的规范,对数据进行组织和管理,但它并非是彻头彻尾的新生物,现阶段的数据中台的核心技术就是数据集成。

图丨 数据集成架构示意图。左图为数据仓库模式。该模式通过抽取器定期从数据源爬取数据,将数据物化,存储在物理的数据仓库中。用户的查询访问等直接在数据仓库中进行。右图为虚拟中介模式。该模式不爬取数据,而是根据创建的模式将用户的查询重写为数据源上的查询在数据源上执行(来源:DeepTech)

数据集成的目标是为多个自治的,异构的数据源提供统一的访问入口。即将自不同数据源,形式各异的数据集成,让用户可以忽视这些差异,以统一的方式访问。数据集成系统有多种可能的架构,但绝大多数系统都介于数据仓库和虚拟集成系统之间,如上图所示。数据仓库就是把各个独立的数据源加载并存储到一个物理数据库(数据仓库)中,即对数据进行物化。当用户的查询到来时,直接在数据仓库上执行。在虚拟集成系统中,数据还是保存在原来的数据源中,通过建立中介模式和数据源之间的映射完成用户与数据集成系统的交互。当用户查询到来时,根据映射将查询重写,在数据源上执行。

企业会掀起再造数据枢纽的新浪潮吗?

目前,阿里数据中台的代表性产品之一——蚂蚁金服的全行数据中台解决方案——已为多家银行所应用。该数据中台为银行业提供一整套端到端的大数据中台解决方案,从其官网介绍中主要针对的行业现状和痛点,我们不难发现数据集成尤其和大数据集成的影子。

相比于 Web 网页上的大数据集成,企业内部大数据集成的难度由于企业内部数据质量有保障,多样性易于统一等同样有所减小,它挑战主要集中在数据的海量性和高速性给数据集成在保证实时性带来的困难上。

图 丨蚂蚁金服全行数据中台解决方案行业现状及痛点 (来源:https://tech.antfin.com/solutions/bdmp)

它可以近似理解为企业的统一数据集成平台,为企业的各项业务和活动服务,对公司的数据进行统一的管理。这样统一的规范化的管理使得不同的数据得以集成交互,打破之前不同部门不同数据源之间的壁垒,让数据的价值爆炸性增长并得以被充分挖掘。

现在,阿里已经推出了不同的类型的数据中台产品:OneData 致力于解决大数据集成的痛点;蚂蚁金服的相关产品则专注金融行业的数据中台构建;而“生意参谋”则是阿里内部数据开放的窗口,集成了海量数据及店铺经营思路,可以更好为商家提供流量,商品,交易等店铺的数据分析预测等服务,协助商家进行商业决策。

从以上内容,我们不难看出这样的数据管理系统对于类似阿里这样的拥有庞大生态系统的企业的重要性,几年来众多大型互联网公司和银行机构也纷纷打造自己的数据中台。

那么对于小型的,没有海量数据的企业,构建这样的平台是否也有必要呢?

数据被誉为企业“石油”,它可以反应企业活动,经营状况方方面面的信息。在数据时代,不能利用数据协助自己的管理业务,做出决策的企业很难走的长远。不管是否已经手握大数据,对现有数据的管理都是每一个企业都应该考虑的问题。这种考虑不仅仅是针对企业当下的状态,更应该有长远的考量:如何充分挖掘数据的价值,为新业务的扩展助力。而这一切的背后,都离不开数据集成技术的支撑。

不过,虽然每个企业都应该合理管理和充分利用数据,但数据究竟要集成到什么程度,以怎样的形式使用和开放却是要谨慎对待的问题。

就像马化腾就在 18 年 11 月初第五届世界互联网大会的论坛上所说的:“我们要从用户的角度来考虑,把个人信息和数据保护放在优先地位,而不能套用其它公司的做法,把数据直接去任意打通。”他强调腾讯不会任意打通数据,技术中台会打通,但数据中台要特别谨慎。