上帝、数据和故事
早些年,在读黄仁宇先生的“大历史”作品时,中国落后是由于“数目字管理差”的判断,印象极其深刻。黄先生将“数目字”管理的准确和意识形态统辖的笼统,做了直接的褒贬对比。潜台词是,中国人图强发奋,跻身世界强国,当“以史为鉴”,重视数目,万万不可只是“大概”而已。如此观点,大可名冠“仁宇结论”与史共存。
近年来,读了多本“大数据”著作,其中涂子沛先生的《大数据》和《数据之巅》,读来振聋发聩。涂先生明言,收集数据、使用数据和开放数据,是现代国人面临的严峻挑战。大有历史呼应的意味,涂先生发出了新时代的“仁宇结论”,依然是民族和国家强盛的警醒之言,让人不由得升腾起深深的敬意。
事物总是具有两面性。当我们过于强调从而过量渲染某个方面时,常常会出现一些逻辑偏差。应当说,在流行颇多的“大数据”文字里,这种偏差是较明显的。无疑,它们不只是逻辑上的争议问题,基于“大数据”的时代功能,它们会引致出偏颇的实践经历和结果。
上帝、人和数据
这是关于“大数据”的名言:“除了上帝,任何人都必须用数据来说话。”
在汉语里,“除了”一词具有英文中“besides”和“except”的两重含义。“besides”表达的“除了”,是一种相加关系,如“Besides him, we all went to the movies ”(除了他之外,我们都去看电影了),其中“他”和“我们”是都去了;而“except”的“除了”是排除性的,如“We all went to the movies except him”(除了他之外,我们都去看电影了),这里的“他”不在看电影群体之中。上面名言中的“除了”,是相加的,还是排除在外的?
显然,由于上帝和人的完全不同,“除了”一定是排除性的。只要你是人,就必须用数据说话;上帝,则可以排除在“用数据说话”之外。很不幸,这种解释,从主体的角度来看,上帝和人不可避免地归属到了同一群体之中,他们只有“说话方式”的不同。“除了”所排除的,只是上帝和人在用数据问题上的“必须与否”,却排除不了上帝和人同处在说话主体位置的共性。
一个逻辑的偏差生成了。
如果说,上帝不等于人,将两者放在同一位置上进行“说话方式”差别的比较,就全然没有基础,这如同“除了动物,我们都去看电影了”一样怪异;如果说,上帝等于人,比较的基础有了,内在的逻辑冲突就出现了―因为“任何人”一旦包括上帝,上帝也必须“用数据来说话”,此名言前后就是自我否定的了。在这里,解决问题的办法,就是放弃用上帝做比较,仅仅说“任何人都必须用数据来说话”,便可逃离逻辑深渊。
我理解,作者之所以要动用“上帝”做文章,在于试图以一种绝对的方式,加大对“大数据”神奇性的渲染。不曾细想的是,这等说法在逻辑上的偏差,很可能导致人们疑虑“大数据”的科学价值和现实功能。要知道,人们大多笃信,离上帝近的东西,离人类科学认知和现实生活会很远。
解说“大数据”名言的逻辑偏差显然不是最重要的。最重要的在于,将“大数据”的功能绝对化,会对人的主体性带来冲击和伤害。因为绝对化,大数据就成了一个新的“上帝”,人容易在如此理解里被大数据所管控,不时地失去自我主体位置,最终导致认知和改造世界的迷惘与失误。
通俗理解,“大数据”即是“大量”的数据。它解决了以往小部分数据时,必须由局部去推测整体的困难。如在大海航行时,航行者发现冰山一角,以往必须借助某种“算法”,去推测冰山的大小;在冰山“大数据”可得到时,整个冰山便容易把握,航行者不需要任何“算法”去推测。而且,如果数据可以“大”到无所不包的“全量”时,人类就能够大大地提高趋利避害的准确性。试想,当你一眼就看清全部冰山,你自然就能够准确地安全航行。可见,大数据特别是“全量”的数据具有直观、结构清晰的特点,人类通过它,能够迅速把握事物的整体、相互关系和发展趋势。毫无疑问,大数据是人类一种功能强大的工具。
“功能强大”常常是被人们夸大的基础,而夸大的最高境界就是将被夸者置于神龛之上。当大数据经拥戴走向登峰造极时,它作为人的工具的特性便急剧弱化;相应地,它被赋予了某种超越工具的特性,大有替代人作为主体的部分作用。收集数据也好,分析数据也罢,特别是使用数据,本来都是人作为数据的主宰者所为。然而,大数据的神化,让这一切转化成了人在数据之下的被动适应—收集的数据越“大”,事物的直观性、整体性就越强,发展的趋势似乎就越容易把握,问题的解决办法似乎就越明了,数据自身的主体功能似乎就越发突出,人对数据的使用就越容易被数据对人的指挥所替代;而数据的指挥越是强势,人就越容易屈从于数据的管控,这又会刺激起人们更多地去收集“更大”的数据,进而叠加性地加固数据对人的指挥。在这样的格局之下,人退居于次位。
这不是一种逻辑演论。在现实生活中使用“大数据”的人们,已经有了“宁可相信数据,也不相信人”的初步理念。例如,一些公司招聘新员工时,完全依赖于各种类型的考试成绩单和就读学校、学历、学位等组成的“大数据”,“准”比尔·盖茨、乔布斯类人士,肯定进入不了选择范围。在法律界,用“大数据”来分析人的犯罪倾向,并预测犯罪行为,提前给予监控,这实际上是对未来的犯罪可能而非实际犯罪行为进行惩罚,显然有损于人的尊严;犯罪学上有“犯罪性”和“犯罪”的区分,前者只是犯罪心理倾向,大量存在于人们之中,并非只有犯罪的人才有,即使用“大数据”分析某人的犯罪性,也不能认定犯罪行为一定发生。过于绝对地依赖和笃信数据,不仅在具体事项里会出差错,重要的,是人的主体性被侵犯,不论他们是招聘者还是被招聘者,也不论他们是“犯罪”的怀疑者还是被怀疑者。
实际上,“大数据”这种人类的创造物反过来管控人,不时挤掉人主体地位的事情,人类有史以来就一直存在。西方人关于人的“异化”之说,东方人关于“自己立个菩萨自己拜”的理念,早就对此现象有过深刻的批判。人类制造了机器,人就时常依附于机器;人类创造了组织、制度,人就被组织和制度统治;人类发明了货币,人便成了货币的奴隶;人类推崇宗教,信教者就有了心中的“主”而忘却了自己。在某种视角上看,人类追寻的自由和进步,不只是在改造和创造世界中获得,还要在摆脱自己创造物的控制和束缚中获得。无奈的是,人类已经有过的深刻认识和实践,仍然无法消除对创造物的顶礼膜拜。这种根植于人性中的东西,我们能够做的,只有反复地提示和警醒。
除了数据,我们至少还有故事
其实,就人类说话的方式而言,除了数据,我们还有故事。故事和数据的不同,在于数据很大程度上是已经存在甚至于记录下来了的真实信息,而故事则可能含有前者,却还可以去“虚构”或是“创造”。人类社会的历史表明,人们的交流和交往,少不得数据,也少不得故事。有时候,故事的重要,还在数据之上。
人类历史的宝贵财富《圣经》,它就是由故事组成的。其中有数据,有他类信息,更有某种“上帝”赋予人类的精神期盼—实质是人类对于自我的认知和价值理念创设,或者说,是人类精神世界里的一种意识形态构建。正是这样的构建,创造了西方世界的文明史基础。《圣经》的历史地位高度,自不待言。
华夏文明的历史何尝不是如此?包括黄仁宇先生在内的许多历史学家,只能依据历史留下来的有限资料或“数据”,去分析、推测甚至于想象历史的过程,构建某种历史观或是意识形态。我们当下看到的华夏文明史,有真实的历史记录,更多的则是历史“故事”的创造。在某种意义上讲,历史中的大多数细节,不是历史中人的言行自然记录,一定是他人或史家的推测或“虚构”。延续着中华数千年文明历史的传统或价值观,并不因为这些“虚构”而失色。相反,正是它们,组合成了较为清晰的文明色谱,让后人承接了文化的精髓而繁衍了强大的华夏民族。
现代计算机、网络、传感和移动等技术的飞速发展,创造出了大数据的时代。当下人类历史的许多细节,已经被有形和无形中存在的设施所自动记录,并且由庞大的存储系统保留下来,不再需要史家的“虚构”。但是不是技术手段的进步,最终会将人类社会的一切都自动记录下来,从而消灭史家的“虚构”呢?从纯粹技术的角度讲,这是可能的。可以想象,当人类一切的言行,自然界的所有变化,都能够时时刻刻地被传感器、移动网络和存储设备所收集时,历史本身的“大数据”就已经集合起来,“虚构”历史细节的空间就没有了。
然而,即使是史家完全没有必要去“虚构”历史,也无法不去“创造”由史而来的价值观、信仰或是在精神层面上完善一个民族、一个国家,甚至于整个人类社会生存和延续的正向理念。现代的数据可以是很大,大到足以让人看清经历的所有细节,但它们不会自动地生成价值评说和善恶区分,更不会自动形成某种意识形态。由大数据组成的历史经历,有其自身的存在逻辑,却未必是人类走向未来的合理存在,如一味追求经济速度的发展经历,并不表明人类美好未来会在此种速度下到来。只有人类自身和谐、圆融地发展,与大自然和谐共存,才是人类的长久发展之道。当历史的细节不需要“虚构”时,人类历史的信仰和价值观,仍然还是需要创造的。事实上,以往史家“虚构”历史细节,根本不是就“虚构”而为,而是冲着信仰和价值观来的。
更何况,要完整无缺地收集人类社会和自然界的全部数据,那是不可能的。自然界存在至少在亿年计之上,人类社会也有数千年历史,过去的数据,我们只是收集和储存了很小的部分。当今的数据,由于人类数量的增长和活动的复杂化,其产生量和收集储存量相比,仍然存在巨大的遗漏—每个人都在每分每秒里产生数据,却不是都被收集和储存了起来。事实上,从人类的所有活动都要耗费资源来说,人类不可能将全部的资源都用于数据的收集和储存,那些消失在自然界和人类社会里的数据,不知道要大于收集和储存数据的多少倍!所谓的大数据,相比于人类无能力收集和储存而丢失的部分,是极其渺小的。
确定的结论就是,在大数据时代里,数据的收集和储存、使用,可以说是空前的,并将获得惊人的发展,但这并不能够消灭“故事”。如果我们不是从相对的视角去看待数据的“大”,不尊重和选择数据以外的其他工具,尤其是弃“故事”类工具而仅仅以数据代之,我们就可能大大地误解自然界和人类社会自身,迷失在存在观、价值观和信仰等意识形态的缺失中,成为大数据的奴隶。虽然说,从长期来看,人类整体一定不会祭出大数据为神,但一时的迷失或部分的误解,也会大大地伤害人类的自由意志和尊严。
如何认知“大数据”
在“大数据”的认知问题上,对人的主体性的强调,始终应当是第一位的。收集、分析和使用的数据再大,大到我们甚至于要经常言听计从地服从于数据演化生成的结论,它们也只是在人的指挥和管控之下形成的。是人,收集到了足够多的数据,有了厚实的分析基础;是人,整理、归类、理清关联、发现特征或规律,并梳理出了可使用的途径;还是人,通过使用数据实践,总结、评估、叠加分析并进一步地提供改进使用措施。即使有些人,总只是处于一般使用者的位置上,那也必须明白,这是人创造出来的东西,不能绝对化它的作用;这也是人在使用的东西,人的操控具有决定性,不可自我否定主体作用。要知道,绝对相信GPS定位的驾车者,在明明白白走错路时,不去怀疑定位器而怀疑自我之事,是时有发生的。
“大数据”之“大”的相对性,需要倍加牢记。现代社会数据的巨量增长,其计量的单位自然发生了变化,百、千、万、亿和兆类单位,已经无法表达数据量界。以二的几十次方出现的“拍、艾、泽字节”单位,它们计量的数据,大到我们无法用传统的数量概念去想象。即便如此,我们也无法用“全量”去界说“大数据”。就是在某个主题设定的前提下,如根据某种疾病的巨量数据来寻求治疗方案,我们运用最先进的技术去收集、储存和分析,并且通过无障碍的方式共享,也无法穷尽所有关联数据,更无法得到全部无遗漏的治疗良方。“大”是一种永远的相对数界,不是绝对的完整存在。如果绝对了,那便是终结,那种疾病根本就不可能有。在这个意义上,我们不应当期望,大数据由于其“大”,会带给我们一个绝对的整体,一个完全不需要因果分析的事物结构,一个彻头彻尾的最优解。那是人类脑海里构造的另类“乌托邦”,不是真实的人类社会。
我们相信人有神性,却不会相信人就是神本身。既然有关大数据的一切,都还是人作为主体主宰之下的所为,那么,人具有的天性,尤其是那与生俱来的弱点,如贪婪、恐惧和懒惰等等,就必定会在与大数据关联的各种过程中,得以充分地展现。由此,收集数据中无法避免造假,分析数据中无法避免差错;而使用数据,则会出现利益争夺之下,人为的效果夸张或缩减,将使用结果叠加为不真实的“新数据”而反馈到大数据群体之中。这一点表明,大数据在人类社会里,总是会包含有假的、错的和人为制造出来没有用处的内容。大数据不只是不绝对地“大”,还不是绝对地有意义。
在人类学说的历史上,“量变到质变”的哲学结论是深入人心的。数据由小变到大,巨量数据时代到来,是不是意味着某种新质的出现呢?
一定是的。如果说,人类并不会因为大数据的出现而改变其主体地位,也不会改变其天性,那么,大数据带来的新质,就必定只是人的思维方式的变化,以及由此而来的社会生存和生活模式的重造。那种过往“小数据”下的传统的思维,包括生存方式选择、管理方法确定和预测模型设立,都将在大数据的冲击之下走向弱势,部分则走向终结,进而演进出现实社会生存和生活中的新景。说实话,现在还不到描绘大数据新社会景象的时候。当下的社会,虽然处在了历史的拐角处,但传统的景致依然活跃,传统的思维依然顽固,我们一时半会儿也构想不出那个新场景来。
作者:陈彩虹
来源:《读书》2015年10期