科学的光荣,哲学的丑闻:怎么对付“归纳”带来的麻烦?

人工智能中的很多核心问题首先需要一个恰当的哲学解,然后是把这个哲学观点精确化的数学解,最后是把这个数学模型操作化的程序解。这三者缺一不可。

比如“机器学习产生偏见”就源于训练数据的代表性,这其实是休谟问题的表现形式之一。注意到休谟问题会让你发现,概率统计到底能不能用不是很容易能断定的。

撰文 | 王培(美国天普大学计算机与信息科学系)

归纳有理吗?

所谓“归纳”,指的是从个别事例到普遍概括的推理过程,比如从对诸多乌鸦的观察中得出“天下乌鸦一般黑”的结论。与其相反的“演绎”推理则是从一般陈述到具体事例。在历史上,对这些推理的研究是在两个层面上进行的。一个是个体层面,关注一个人怎样进行这些推理来获得知识。这是认识论、认知心理学、逻辑学的核心问题之一,尽管这些学科的思路各有不同。另一个是在群体层面,关注在科学理论的构建和使用中怎样进行这些推理。这是科学哲学、科学史等领域研究的问题。尽管有各种细节上的差别,在这两个层次上的归纳及其与演绎的关系仍有根本上的同质性,所以下面我会一起讨论。

由于经验科学往往是从观察到的具体现象出发,逐渐概括、抽象到一般性理论,这一过程很自然地会被看成是个归纳过程。培根(Francis Bacon,1561-1626)、穆勒(John Stuart Mill,1806-1873)等哲学家就曾试图整理出一套 “归纳逻辑” 或 “科学归纳法”,认为通过系统地收集和整理观察材料,然后对假说进行评价和筛选,就可以得到可靠的科学理论。其实至今大部分科学家基本上还是遵循类似的方法,尽管他们往往将其看作天经地义,不需要专门拿出来讨论的。

破坏了这一派太平景象的是休谟(David Hume,1711-1776)。他指出既然归纳是从已知事例中概括出一般结论,那就是一种“扩大知识的推理”,因为结论也包括了未来事例,所以超出了过去已知的范围。除非未来和过去是一样的,这种结论就不能保证正确。但怎么证明未来和过去一样呢?归纳证明会导致循环论证,更不必说有人会认为未来和过去本来就不会完全一样。休谟认为归纳只是一种心理习惯,就是说我们的确都这么想,但这种思维方式并没有理性基础,因此不这么想也不能算错。

休谟的论证总让我想起鲁迅《狂人日记》里的诘问:“从来如此,便对么?” 当然狂人的“对”说的是伦理,而休谟说的是逻辑,但二人的问题和得到的反应都差不多。学者们觉得休谟的论证难以反驳,但又绝不能接受,因为这样一来知识和科学理论的合理性就都岌岌可危了。给他贴一个“不可知论者”的标签和叫一个人“疯子”的缘由类似吧。科学取得的成就有目共睹,这时候说其核心规则没有道理可言只是习惯而已,这不是脑子有毛病吗?

既然归纳的合理性难以论证,自然有人会为科学另找依据。波普尔(Karl Popper,1902-1994)写了一本《科学发现的逻辑》,其主要结论却是科学假说的发现不符合任何逻辑,而逻辑的作用只是对假说进行证伪。所谓的“科学理论”只不过是尚未被证伪的假说而已。这个结论影响很大,在挑战很多自称“科学”的学说时堪称利器,但很多人觉得把归纳完全扫地出门似乎过分了。归纳被称为“科学的光荣,哲学的丑闻”就是这个缘故:明明是个好东西,就是说不清道理何在。

黑乌鸦和黑绵羊的疑案

我猜读到此处,有些读者已经在心里念叨了:哲学家就是没事找事。好用就行了呗,刨根问底干什么!我这里就召唤两只黑色的神兽,用它们的力量来说明归纳里面的麻烦远不是把哲学家们都封口就完事了。

作为对休谟和波普尔的回应,很多人指出归纳结论的正确性不该被看成绝对的真或伪,而是个程度问题。归纳就是根据证据增加或减少对一个陈述的相信程度。比如说对“乌鸦是黑的”这个陈述,每当我们看到一只黑乌鸦,我们对这个陈述的相信程度会上升,而如果看到一只白乌鸦,相信程度会下降。这就是说,对“是A就是B”这种陈述而言,每当我们看到A的一个实例,如果它也是B,它就是陈述的正例,否则就是反例,而相信程度会相应被调整。

到此为止似乎没毛病,但亨普尔(Carl Gustav Hempel,1905-1997)发现了一个问题:根据经典逻辑,陈述“是A就是B“ 和它的逆否陈述“不是B就不是A”等价,即说的是一回事。那就是说这两个陈述的正、反例是一样的。一个红苹果既不是黑的也不是乌鸦,所以它就是“不是黑的就不是乌鸦”的正例,因此也就是“乌鸦是黑的”的正例。这就是说每当你看见一个红苹果,你对“乌鸦是黑的”的相信程度就应该增加。这就是有名的“亨普尔悖论”,又称“乌鸦悖论”。你如果觉得这还不够怪,那你一定是个哲学家,因为亨普尔本人就建议我们接受这个听起来怪怪的结果,否则的话我们就要挑战逻辑等价性标准,那后果就更严重了。但即使我们硬着头皮承认红苹果的确应该使我们更加相信“乌鸦是黑的”,那怪事也没有完,因为根据同样的理由,我们同时应该更加相信“乌鸦是白的”,“乌鸦是金子做的”,“天是蓝的”,等等。奇妙吧?

如果黑乌鸦带来的霉气还多少可以赖到哲学家头上,那下面的黑绵羊就完全没法让他们背锅了。一个出处不详的笑话说一位天文学家、一位物理学家和一位数学家坐火车进入苏格兰后,在窗外见到一只黑色的绵羊。天文学家说:“苏格兰的绵羊是黑的!” 物理学家纠正说:“应该说有一些苏格兰绵羊是黑的。”这时数学家说:“你们都错了。正确的说法是:在苏格兰,至少有一只绵羊,且这只绵羊至少有一面看起來是黑的。” 这个笑话八成是物理学家们编出来讽刺天文学家的不严谨和数学家的过分严谨,但它同时展示了归纳的另一个麻烦:即使是对同一个观察结果来说,也存在多种概括的可能性。

比如说对上面的场景,归纳结论“苏格兰的绵羊是黑的”“欧洲的绵羊是黑的”和 “苏格兰的动物是黑的”与观察的逻辑关系是一样的,都是在“对象a是范畴A的一个实例”的条件下将 “a是B” 推广到“A是B”。当一个对象同时属于多个群体时,选择哪个做概括就是个问题了。这个选择显然不是任意的,但又没有一个标准答案。比如说在描写某人做了某事(可能是好事也可能是坏事)时,把这个人称呼成某省人、某校毕业生、某公司雇员、某行业从业者都是可以的,但在读者心目中造成的效果会多少有所不同,正是因为这个标签会引导向特定方向的归纳。

上面两个例子已经不仅仅是抽象的哲学问题了。如果我们设计了一个人工智能系统,那它在见到上述黑乌鸦、黑绵羊,以至于红苹果时,应该产生什么样的结论?当然一个保险的方案是不进行任何归纳或概括,但这种系统的“智能” 就相当有限了。我们都知道以偏概全是不对的,但又都觉得能见微知著的才是聪明人。

统计学习也躲不开这些麻烦

一旦归纳结论的真假被看作程度问题,一个显然的选择就是将其表示成概率,而统计推理的基本功能正是通过对现有样本的分析来预测未来事件的发生可能性,因此也是归纳的一种形式。

这样说来,休谟的问题在这里也存在:怎么保证已知样本和未来事例遵从同样的统计规律呢?从根本上来说这是没办法保证的。但在概率统计的理论模型中,这个问题可以利用基本假设来回避掉。比如说一个常见的假设就是所有样本,包括已经收集到的和未来会遇到的,都是从同一个样本空间中按照某种确定的概率分布得到的。常见的实例是掷骰子。尽管反复掷一个骰子时得到各个数字的机会可能是不同的,但只要是骰子和投掷环境不变,这些机会就不变。尽管我们开始时不知道这些机会的大小,用过去的出现频率来预测未来的数字还是合理的。这里能保证的不是每次都猜对,而是对各个数字出现的统计规律的描述可以越来越准确。

但这不说明概率统计解决了休谟问题,而是相反:只有在有理由认为休谟问题不出现或不严重的情境下,才能使用概率统计。并不是所有应用情境都满足这个条件的。比如说把某只股票的股价看作一个随机变量就不一定是合理的,因为其取值未必遵循一个稳定的概率分布。这应该算是常识,但往往被有意无意地忽略,其结果就是即使所有计算都符合概率统计的要求,结论也不具有规范性,因为在这个问题上用这个模型的合法性本身就有问题。

近来引起越来越多关注的“机器学习产生偏见”的现象就直接源于训练数据的代表性,这其实也是休谟问题的表现形式之一。所谓“偏见”往往相对训练数据集而言是“正见”,只是把它用于一个新的数据集时才看出“偏”来。在新的数据到达之前,一个统计结论是否属于偏见其实是无从判断的。这就是严格按照概率统计模型作出的预测仍可能失败的主要原因之一。这种问题和由小概率事件、数据不足、数据中的噪声等等所造成的问题不同,是不能用概率统计所提供的手段来解决的,因为这些手段的有效性本身就是建立在休谟问题不会出现的前提之下的。

面对一个具体应用问题,概率统计到底能不能用不是很容易就能断定的。常见的对策是先用用试试,好就接着用,但以前的成功其实不能保证以后的成功,即使是那些号称“已被大量事实充分证明”的结论也是如此。在环境不断变化的情况下,无论是怎样的大数据,也只说明过去,而无法准确预测未来,即使在概率意义下(如“保证95%的正确率”)也做不到。前一段时间,八百多科学家联名要求停止使用“统计显著性”,也和这个问题有关。所谓统计显著性就是建立一个标准以确定在什么情况下可以把一个统计假说看成是“真的”。这些科学家认为不确定因素总是存在的,所以没有一个统一的标准可以把统计结论转换成非真即假的二值结论。

除了休谟问题之外,前面提到的其它和归纳有关的问题也有其在概率统计中的相应形式。比如说对于归纳结论不唯一的问题,在机器学习中的一般处理方式是预先设定某种“归纳偏好”,以达到限制和选择结论的目的。如果太贴近具体数据,即概括程度太低,会造成 “过拟合”,不大可能有效地推广到尚未观察到的对象。当一个待判断对象同时属于多个参照集(分别依照年龄、性别、籍贯、职业等等划分)时,根据哪一个数据集之上的统计来得出判断(比如这个人有多大可能患某种病)也不是个简单的问题。

纳思怎么办

我设计的通用人工智能系统 “纳思” 在前面几篇里面介绍过了,这里只讨论和归纳直接相关的部分。从一开始,我就把智能看作某种一般理性原则,而非解决某些具体问题的方法。这样一来就直接撞上了休谟问题:如果承认未来经验和过去经验可能是不一样的,那么从过去经验中总结出的规律(不论是用归纳还是别的办法)在未来就没法保证一定正确。在这种情况下,怎么做才算“理性“?举例说来,即使已知的乌鸦都是黑的,那也不能保证将来碰不上白的。这是否说明预测下一次碰到的乌鸦是黑的或是白的同样 “合理”,因为二者都有可能对?当然,任何正常人都认为在这时猜“黑“ 是显然正确的,但这是为什么?只是因为“从来如此”?

传统的理性模型都是基于经典逻辑或者概率论的,其结论的 “真” 是以其公理的(建立在约定基础上的)真和推理规则的 “保真性” 为前提的。天不变,道亦不变,而一旦 “得道”,其逻辑结论自然也就不可能错。照此行事,自然就是合乎理性的了。这的确很圆满,但一旦天道有变,亦或无法判定所得的是否真的是“道”(按休谟的论证,这种判定不可能得到),那就无计可施了。

当然还有另一种显然的选择,就是接受休谟的结论:归纳就是一种心理习惯,没道理可讲。人工智能当然也可以这么做,就是用“人脑就是这么干的” 作为所有主要设计的依据。这种做法自然有其价值,但不是我想做的。我们的确应该了解人脑在生理和心理层面的工作原理,并在人工智能设计中加以借鉴,但我总想多问一句:我们在计算机里面也非得这么干才“对”吗?

我的选择是接受休谟的论证,但不止步于他的结论。在现实环境中,根据过去的经验是不可能严格、精确地预测未来,并保证所有结论的正确性的。人脑的确是在进行这种预测(以归纳为主要形式之一),但这不仅仅是一种习惯,更是一种理性。和传统的理解不同的是,在这种情况下理性不保证预测成功,而是一种适应性行为。简单说来,“适应性行为”就是根据过去的经验预测未来,尽管这些预测常常会错。“努力适应环境”和“保证适应成功”不是一回事,前者是可以做到的,而后者不一定。

我们可以把一个系统的外部环境大略分成三种:如果环境绝对稳定且遵循系统可认识的规律,传统的理性模型和依此设计的“公理化系统”会是最成功的,因为只要公理和规则搞对了,系统就绝不会犯错。如果环境可变但相对稳定,那么适应性系统及相应的“非公理化系统” 会是最有希望的,因为这时公理化系统就太僵化了,完全无法应对意料之外的情况,而非公理化系统尽管不能保证不犯错,但起码有预测正确的可能。如果环境的变化极其迅速或无迹可寻,那任谁也是无能为力了。所以,照我看来,智能也好,科学也好,都不是以 “保证成功” 为其理性标准的,而是体现了一种“尽人事,听天命”的态度,是不以成败论英雄的。

我上面的结论不仅仅是一个哲学立场,而是有直接的具体后果的。如《证实、证伪、证明、证据:何以为“证”?》中介绍的,纳思和其它推理系统的一个根本不同点,就是其中一个陈述(如 “乌鸦是黑的“)的真值不是刻画其与客观事实的符合程度,而是和系统相关经验的符合程度,因此会随着经验而变化。系统中的推理规则(包括演绎、归纳等等)也都是在这个意义下 “保真”,就是保证不无中生有,但不保证百发百中。如果让纳思见到那只绵羊,它的表现会是那个天文学家和物理学家的综合:它的结论可能是 “苏格兰的绵羊是黑的”, 而其真值对应于现有证据的量(所以见过一只、两只或一千只时结果是不同的)。

对于归纳结论不唯一的情况,纳思是由当前的注意力范围决定哪个结论会被生成的,而不是靠一个固定的归纳偏好。具体说来,同一个观察结果也可能被概括为“欧洲的绵羊是黑的” 和 “苏格兰的动物是黑的”,取决于当前系统中相应概念的活跃程度。当然,这些结论看起来很荒谬,但那是因为我们心中大量其它信念(尤其是已知反例)的影响。小孩子完全可能那么想,而且不能算是想错了,这和结论的对错是两码事。

至于乌鸦悖论,在纳思中是不会出现的,因为在那里“乌鸦是黑的”和“不是黑的就不是乌鸦”有不同的真值和语义。这两个陈述有相同的反例(“不黑的乌鸦”),但有不同的正例(分别是“黑乌鸦”和“不黑的非乌鸦”,而后者包括红苹果)。因此,纳思在看到已知红苹果时不会影响它对 “乌鸦是黑的” 的相信程度。这两个陈述在经典逻辑中等价,因为在那里“真”就是“没有反例”的意思,而与正例无关,但这个等价原则不能推广到正反例都影响真值的逻辑系统(如纳思)之中。

我相信纳思对归纳的处理比其他理论更自然、合理,尽管这个方案和目前主流的基于经典逻辑和概率统计的方案有根本差别。我不期望靠这篇短文说服很多人,有兴趣的读者可以去读我的学术文章。我只是想提醒大家注意某些常常被习惯性忽略的问题。

本文的另一个目的就是以归纳为例说明我的一个基本信念:人工智能中的很多核心问题首先需要一个恰当的哲学解,然后是把这个哲学观点精确化的数学解,最后是把这个数学模型操作化的程序解。这三者缺一不可。


参考文献

1. Pei Wang, Formalization of evidence: a comparative study, Journal of Artificial General Intelligence, Vol. 1, Pages 25-53, 2009

2. Brian Skyrms, Choice and Chance: An Introduction to Inductive Logic, 4th edition, Belmont, CA: Wadsworth, Inc. 2000

特 别 提 示

版权声明:本文由《返朴》原创,欢迎个人转发,严禁任何形式的媒体未经授权转载和摘编。

《返朴》,致力好科普。国际著名物理学家文小刚与生物学家颜宁联袂担任总编,与几十位学者组成的编委会一起,与你共同求索。二次转载或合作请联系fanpu2019@outlook.com。