亚伯拉罕?瓦尔德:数弹孔的数学大师

《战狼2》的热映,掀起了一股军事热。有科普武器的,有讲解军事常识的,有上网打听也门撤侨事件的。战争电影总是让人思绪万千——关于汗水、关于鲜血、关于牺牲与奉献。

《战狼2》海报[1]

这不由得让人想起了第二次世界大战。作为人类历史上规模最浩大、影响最深远的战争,第二次世界大战,不仅在地域上横跨六大洲、三大洋,而且包括了政治上的斡旋、军事上的攻防,以及幕后智力上的较量。

亚伯拉罕·瓦尔德,就是这样一位隐居在幕后的英雄。

奥地利的穷学生

亚伯拉罕·瓦尔德(Abraham Wald,也译阿夫拉姆·沃尔德),1902出生于克劳森堡(Cluj-Napoca)。当时的克劳森堡隶属于奥匈帝国,所以随着第一次世界大战的结束和奥匈帝国的解体,瓦尔德的家乡也改换门庭,成为了罗马尼亚的一部分。

瓦尔德 [2]

随后的故事,老实说,有点缺乏可陈。和所有优秀的数学家一样,瓦尔德很早就显示出了极高的数学天赋,顺利进入大学,选了几个门外汉(比如我)听到名字就会头痛的课程,比如度量空间。

不一样的地方在于,瓦尔德选择了奥地利,进入了维也纳大学,他的求学生涯,恰好赶在第一次世界大战和第二次世界大战之间。20世纪20年代的欧洲,就像一间失火的屋子。所有人都知道大事不妙,但是谁也不知道该怎么办,于是,各自使出了自己的求生手段,种族主义、反犹情绪,等等等等。

今天的维也纳大学[3]

在这样的氛围下,作为一个犹太人,想在大学找到教职,显然是不可能的。多亏了摩根?斯特恩(Morgenstern,博弈论的创立者),瓦尔德才找到了一份可以勉强糊口的工作。[4]

尽管时运不齐,命途多舛,瓦尔德仍然不愿意放弃自己对数学的热爱,希望能找一个可以安心研究数学的职位。1938年,纳粹德国占领奥地利以后,瓦尔德终于下定了决心——接受考尔斯基金会(Cowles Commission for Research in Economics)的邀请,去美国。[2]

实验室里的特殊分子

瓦尔德是幸运的,他不仅顺利逃到了美国,而且几经辗转,进入了哥伦比亚大学的统计研究小组;瓦尔德也是不幸的,一方面,他的家人因故滞留欧洲,死在了纳粹的折磨之下,另一方面,他是统计研究小组最特殊的一个。

统计研究小组所在地(图片来源见水印)

当时的统计小组,集合了全世界最顶尖的头脑。比如弗雷德里克.莫斯特勒,哈佛大学统计系的创建者,比如,诺伯特?维纳,控制论的创始人。

而瓦尔德呢?

虽然大家认可他的数学能力,但是他毕竟是一位来自敌国的侨民。所以,就出现了一个是很古怪的现象:瓦尔德必须根据需要,写一些分析报告,因为人家请他来,就是干这个的;不过,写完、上交以后,瓦尔德没有权力查阅这些报告,因为这些报告属于机密……

建立信任需要契机,那个契机很快就来了。

从某种意义上讲,第二次世界大战是飞机战的开端,谁抢到了制空权,谁就占据了主动。所以,战争期间,几乎每天都有大量飞机参战。于是问题就来了:敌人也不是吃干饭的,你派飞机过去,人家自然会反击,一来二去,飞机中弹、乃至失事,再正常不过,该怎么提高飞机的生存率呢?

最简单的方案,就是给飞机增加装甲。当时的美国军方做了一番调查,统计了飞机各部位的中弹数量。因为飞机对重量很敏感,没办法搞成坦克那个铁疙瘩样儿,所以,装甲必须加在最需要的地方。

哪里最需要装甲呢?

军方的统计数据[4]

看过这张图表以后,相信很多人的第一反应是,“机身最需要”。

军方也是这么认为的,而瓦尔德,却给出了截然相反的答案:引擎才是最需要加强的。

为了理解这个问题,我们可以假设,敌人发射的不是子弹,而是一团一团的油漆。一批飞机起飞、和敌人交战,然后返回。因为飞机的机动性很强,空战又是立体式的,敌人可能出现在任何一个方位。也就是说,飞机中弹,是一个随机时间;对一架飞机来说,每一部分中弹的概率,是均等的;如果对这些飞机做一个统计,每个部位出现的油漆数量,应该十分接近。

这个结果为什么和军方的调查数据不一样呢?

因为引擎中弹的飞机,往往飞不回来……

二战飞机[5]

安装装甲的目的,是增加所有飞机的存活率。如果只关注那些顺利返航的飞机的中弹情况,就会陷入逻辑误区,这就是大名鼎鼎的幸存者偏差(survivorship bias)。这一理论,在今天,仍然有着很强的现实意义。比如,著名的脸书公司,在分析用户偏好、处理用户数据的时候,就用到了瓦尔德的理论;[5]再比如,当你在网上搜集减肥攻略的时候,你一定要记住:会在网络上分享减肥攻略的,通常是已经减肥成功的,这些人是“幸存者”,他们的经验,不能照单全收。

决策论大师

一辈子做一件了不起的事,就足以留名青史了。然而,瓦尔德的征程才刚刚开始,还有更大的考验在等着他。

瓦尔德[6]

打仗,打的是兵马钱粮。枪支、弹药、火炮,不仅要有,而且要好。任何一个环节出了问题,都有可能影响一场战役。所以,军用物资的检验,是一个大难题。

比方说吧,生产商生产了一万发炮弹,军方如何组织验收呢?

最直接的方案,是挨个儿试、一发一发地打,然后做个统计表。当然,这么做也就失去验收的意义了……

战争时期的哥伦比亚大学工作人员[7]

最常用的方案,是抽样检查。验收的一方,先定下一个标准,好比说,“炮弹合格率必须大于99%”;根据这个标准,挑选合适的样本数量,抽取两组,每组五百发,分别做测试,计算平均合格率;最后,用样本的合格率,估算所有炮弹的合格率。

不过,军用物资比较特殊。要检查炮弹的合格率,你得先把它运到靶场吧?还得准备一些火炮吧?每个样品都得发射出去吧?这一笔一笔的,都是钱呐。第二次世界大战期间,美国以一国之力,参与欧洲、北非、太平洋三大战场,哪怕再有钱,也得省着点花。

为了解决这样的难题,瓦尔德开创性地提出了序贯分析的方案。[8]所谓序贯分析,就是按照一定的顺序、次第进行抽样。一万发炮弹,要求合格率99%,平均来说,一百发炮弹里,最多可以有一发不合格的。那么,从里面先抽一百发出来,进行测试,如果不合格的炮弹数量大于一,就不用接着测试了,这批炮弹极有可能不符合要求;如果不合格的炮弹数量少于一,可以通过数学计算,判断接下来还要不要借着抽,需要抽多少。因此,与传统抽样调查不同,序贯分析并不事先规定样本数量,而是边抽边检、根据结果调整后续行动。这样,就能充分利用抽样检查的结果,既能保证准确性,又能大为减少浪费。[9]

大规模军事行动中,设备、物质可靠性非常重要[10]

序贯分析,现在被称之为序贯概率比检验(Sequential probability ratio test,SPRT)是一种十分杰出的数学思想。自其诞生以来,不仅在军事科学被广泛运用[11],而且影响到了许多其他学科。

我举个例子吧,中国是胃癌大国,而提高胃癌存活率的关键,是早期诊断。与此同时,中国人口众多,挨个做详细检查,就算有那个钱,也没那么多医生。所以,可以运用序贯分析的思想。首先,向人们发放调查问卷,有没有上腹疼痛啊,有没有食欲不振、消化不良啊,每一项都标注一个数字,表示与胃癌的关联度;总分数特别低的,很好,患胃癌的概率很低,不用接着查了,分数比较高的,通过生化测试,检查胃癌标记物;如果胃癌标记物显示为阳性,就做详细的胃镜检查。这样,通过序贯分析,不仅可以节约资金,还能及早发现胃癌患者,提高其生存率。[12]

结语

因为序贯分析这个事儿,瓦尔德还和费歇尔(杰出的统计学家,被称之为“统计界的凯撒”)闹过别扭。费歇尔认为,统计学的任务是进行数据分析、获取相应的信息,而不是做出决策;至于瓦尔德,干脆根据自己的研究,提出了统计决策理论。

村上春树在《海边的卡夫卡》中写道:“世界万物,无一不是隐喻。”身为普通人,我们都希望事件与事件是有关联的,比如,阳台上出现一只喜鹊,便意味着好事要发生。然而,“随机”才是宇宙的本来面目。只有依靠统计,我们才能在变化莫测的世界生存。

令人难过的是,1950年12月,瓦尔德因飞机失事遇难。一辈子研究随机性的人,最终殒命在一个随机性事件上。

美国战争部的宣传画,左,数学拯救生命,右,数学抗击纳粹[13]

---------------------------------------------------------

参考文献

[1] 战狼2 (豆瓣)[EB/OL]. [2017-08-12]. https://movie.douban.com/subject/26363254/.

[2] Abraham Wald[J]. Wikipedia, 2017.

[3] Universit?t Wien[J]. Wikipedia, 2017.

[4] 乔丹?艾伦伯格. 魔鬼数学[M]. 胡小锐, 译. 中信出版集团, 2015.

[5] How A Story From World War II Shapes Facebook Today[EB/OL]. [2017-08-01]. https://www.fastcodesign.com/1671172/how-a-story-from-world-war-ii-shapes-facebook-today.

[6] SHOTTON R. Data lessons from a mathematical genius[EB/OL]. . https://mediatel.co.uk/newsline/2016/09/12/data-lessons-from-a-mathematical-genius.

[7] Columbia Forum: WWII & NYC | Columbia College Today[EB/OL]. [2017-08-13]. https://www.college.columbia.edu/cct/archive/summer13/columbia_forum.

[8] WALD A. Sequential tests of statistical hypotheses[J]. The Annals of Mathematical Statistics, 1945, 16(2): 117–186.

[9] 韦博成. 漫谈统计学的应用与发展 (2)[J]. 数理统计与管理, 2011, 30(2): 254–270.

[10] Of B-17s, Math, Mediation, & Thinking | Triangle Smart Divorce Cary NC[J]. 2016.

[11] 刘奎永等. 序贯分析法在舰炮武器试验中的应用[J]. 火力与指挥控制, 2004, 29(1): 98–102.

[12] 孙远杰等. 早期胃癌序贯筛查的流行病学结果分析[J]. 中国临床研究, 2010, 23(7): 560–562.

[13] MCRANEY D. Survivorship Bias[J]. You Are Not So Smart, 2013.