信息熵是怎样炼成的?纪念信息论之父香农(上)

纪念"信息论之父"香农的最好方式,莫过于重温一下他怎样定义信息熵的数学思想,去理解现代信息论这个基本概念——仅用初等代数即可推导,令人赏心悦目,流连忘返!

确定性过程在数学里是司空见惯的现象。众所周知,一个函数的迭代过程是确定性的,因为下一个迭代点完全由当前已知的迭代点唯一地确定。譬如混沌学中著名的逻辑斯蒂模型 f(x) = 4x(1-x) ,当x等于0.1时的函数值必为0.36,而不会等于0.35或0.37。同样,一个微分方程初值问题的解也是确定性的:解在任一时刻的值是唯一确定的一个数。

然而,和确定性现象一样, 随机现象在自然界也是到处可见的。小孩子们喜欢猜硬币正反面的游戏:将一枚五分钱的平整硬币在桌上旋转,然后猛地用手把它拍倒按住,猜猜是钱的正面朝上还是反面朝上。即便旋转过一百次都是正面朝上,第一百零一次旋转后,硬币正面朝上的或然率还是同一个概率值:1/2。这就是典型的随机性,它意味着试验结果是不可确定的。如果历史上英国铸币局(牛顿(1643-1727)曾在这里当了几十年的局长)把钱币故意制成一个圆锥体陀螺形状,那么无论怎样旋转,待它最终停转时总是站在那里,也就是说正面总是朝上,这就是一个确定性的例子——旋转结果是可以预测的。人们认识到随机性的历史也许比数学史本身还要长,甚至可能就等于人类自己的历史——毕竟,孕妇肚子里怀的是儿子还是女儿,本身就是一个不可预测的随机事件问题。

不确定性作为自然的基本属性,应该怎样用数学的语言去刻画呢?“熵”就是关于不确定性的一个极好的数学描述。历史上的熵概念起源于热力学。凡是学过热力学、统计物理或物理化学的人对“熵”这一术语都不陌生,但是这一概念发展的初始阶段却跟混沌思想并无任何历史瓜葛。实际上,当熵的名词诞生之时,混沌之祖庞加莱(Henri Poincare, 1854-1912)还只是一个乳臭未干的少年。当熵的触角从宏观的热力学伸展到微观的统计力学之后,才逐渐拉近它和混沌概念的距离。二十世纪中叶的一场信息论革命,无意中在古典熵的旧作坊内又酿造出醇香的新酒。

十九世纪是物理学家大显身手的世纪。如果说十七世纪是宏观力学的乐园,十九世纪则是微观力学的会所。热力学和统计力学把眼光由外向里地从机械能转向到内能,熵概念的缓慢演化覆盖了那个世纪后半叶的前三十年。1865年,热力学奠基人之一、德国物理学家和数学家鲁道夫 ? 克劳修斯(Rudolf Julius Emanuel Clausius, 1822-1888)第一次使用了“熵(entropy)” (从意指“变换容度”的希腊词τροπ?派生而来)作为热力学的专用名词,并赋予其数学形式。他用 “Sadi” 的第一个大写字母 S 作为熵的记号,大概是为了纪念熵理论先驱者之一、法国工程师萨迪 ? 卡诺(Nicholas Leonard Sadi Carnot, 1796-1832)。他写道:“按照希腊词τροπ?(trope) 的意思,我将 S 这个量称为系统的熵。我特别取熵这个词是为了让它与能量这个词尽可能相像:这两个词所表达的两个量在物理上如此密切相关,把它们的名字写得类似完全是合情合理的。” 他的一句名言 “宇宙之熵趋于无穷” 是热力学第二定律在孤立系统中无能量消耗情形下的推论;他的另一句断言 “宇宙总能量不变” 则是能量守恒定律的通俗说法。

第二年,24岁的玻尔兹曼(Ludwig Boltzmann, 1844-1906)在他关于气体动力学的奠基性论文中,给出了熵的另一形式。十一年后的1877年,他在统计热力学中把熵简单地定义为著名的“玻尔兹曼常数”乘上与宏观状态相容的微观状态的个数之对数。与早先把熵和热量传递捆绑在一起的做法不尽相同,玻尔兹曼把熵看成是无序分子运动紊乱程度的一种度量。这种新观点,被杨振宁先生(1922-)十分推崇的美国物理学家、化学家和数学家威拉德 ? 吉布斯(Josiah Willard Gibbs, 1839-1903)精雕细琢,成为统计力学理论发展史上的里程碑之一。1995年夏,在中国厦门大学召开的第十九届国际统计物理大会(东道主学者郝柏林(1934-2018)时任会议主席)上,笔者曾听到与会讲话的杨振宁先生建议大家读读二十世纪初吉布斯那本启迪灵感的名著《统计力学的基本原理》(Elementary Principles in Statistical Physics, 1902)。吉布斯于1863年在耶鲁大学获得美国历史上第一个工程博士学位,并在这所老牌大学度过了他的整个学术生涯。他令蒸蒸日上的美国扬名天下,可惜墙内开花墙外香,在科学整体尚欠发达的祖国,吉布斯活着的时候声名未曾显赫,却在去世前两年被大西洋彼岸最强盛时期的英国授予了伦敦皇家学会的考普利奖(Copley Medal of the Royal Society of London)——诺贝尔奖之前全世界科学界名气最大的奖项。

1. 信息熵

对需要交流的人类而言,通讯犹如吃饭睡觉一样重要。就像人类不断探索水稻增产一样,不断改进通讯质量与速度的科学研究一直是全世界方兴未艾的事业。1948年,博士毕业后就在贝尔实验室里研究通讯技术的电子工程师克劳德 ? 香农(Claude Shannon, 1916-2001)在《贝尔系统技术杂志》(Bell System Technology Journal)上分两期发表了他一生中也许是最有名的一篇论文:《通讯的数学理论》(A mathematical theory of communications,1948),引入了一条全新的思路,震撼了整个科学技术界,开启了现代信息论研究的先河。在这一伟大的贡献中,他引进的“信息熵”之一般概念举足轻重:它在数学上量化了通讯过程中“信息漏失”的统计本质,具有划时代的意义。

克劳德 ? 香农(Claude Shannon, 1916-2001)

香农生于美国密歇根州,本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯 ? 爱迪生(Thomas Alva Edison, 1847-1931),后来他发现这位英雄是他家的一个远亲。二十岁本科毕业时,他拿回了电子工程和数学两张学士文凭。而他在密西根大学修课时接触到英国数学家和哲学家乔治 ? 布尔(George Boole, 1815-1864)最有名的工作“布尔代数”,成就了他二十一岁在麻省理工学院完成的题为《中继及开关电路的符号分析》(Symbolic analysis of relay and switching circuits,1937)的硕士学位论文。有人说这是二十世纪甚至人类历史上最有价值的硕士论文,因为它用布尔代数的理论首次表明对付真假李逵的“符号逻辑”与对付电路开关的“0-1数字”具有一致性,从而论证了数字计算机和数字线路的逻辑设计之可能性。

香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 ? 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:

就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。

香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

对于一般的不确定事件,我们怎样数学地刻画它的不确定程度呢?设想有n个“基本事件”,各自出现的概率分别为

则它们构成一个样本空间,可以简记为所谓的“概率数组”

样本空间最简单的例子是我们上面提到的抛硬币游戏,它只有两个基本事件:抛硬币结果是“正面朝上”或“反面朝上”,其中每个事件的概率均为 1/2,其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称,使得抛硬币时正面朝上的概率增加到7/10,而反面朝上的概率减少到3/10,则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度,用数 H(7/10, 3/10) 代表第二个样本空间的不确定度,那么直觉马上告诉我们:数 H(1/2, 1/2) 大于数 H(7/10, 3/10),也就是前者比后者更加不确定。

更一般地,若用

记样本空间

所对应的不确定度,运用同样的直觉分析,我们相信当所有的基本事件机会均等,即都有同样的概率1/n时,其不确定度最大。因而,不确定度函数H应该满足如下的基本不等式:对所有的加起来等于1的非负“概率数”

如果我们不抛硬币,而像澳门赌场的常客那样掷骰子,每掷一次,小立方骰子的每一个面朝上的概率均为1/6。想一想就知道,某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化,我们就有不确定度函数H 应该满足的单调性要求:

假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金,他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平,让每个系得此奖励的机会均等。若物理系拿到资助,就到了赵教授的名下。如数学系得到了它,钱教授有2/3的概率拿到,孙教授则有1/3的机会到手。通过分析“条件概率”,我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值:这三个教授获得基金的不确定度,等于物理系或数学系拿到这笔基金的不确定度,加上数学系赢得该基金的概率与在数学系拿到基金的条件之下,钱教授或孙教授得到它的不确定度之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ? H(2/3, 1/3)。推而广之,可以得出不确定度与条件概率有关的“加权和”性质:

既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数,我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样,第四个条件就自然而然地加在了不确定度函数的头上:

香农无需什么高深的数学,甚至连微积分都可不要,就证明了:任何在所有样本空间上都有定义的函数H,只要它满足以上的“三项基本原则 (2)(3)(4)”,就非如下的表达式莫属:

其中符号 ln 代表以 e 为底的自然对数函数,C 可以是任意一个常数。并可证明,条件(1)自动满足(有兴趣的读者可用初等微积分证之)。当然,熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数,它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。香农取 C = 1,如此得到了非负函数:

按照冯 ? 诺依曼的建议,该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在,这个数被广称为“香农熵”,以纪念它的创造者、信息论之父——香农。

现在,为了满足读者追根求源的好奇心,我们在此给出一个高中生也能看懂的简单证明。这是活学活用初等代数的好机会,我们分三步来证明:

如上证明是我在1989年从我的博士导师李天岩教授于密歇根州立大学所作的公众报告中听到的。细看一下香农熵的公式,除了负号,它是基本函数 x ln x 的有限个函数值之和。这个函数的图像就像大厨师手中侧面看过去的长勺子。向上弯曲的曲线有几何性质:连接上面任意两点的直线段都在这两点之间的曲线段之上。运用初等微分学,读者可以证明,对任意两个正数a和b,有

a – a ln a ≤ b – a ln b。

这就是现在冠以吉布斯大名的初等不等式,在一切与熵有关的数学问题中均有上乘表现,比如说我们在下面的第3节就要用到它。

当所有的概率值pi都取为1/n时,吉布斯熵就还原成玻尔兹曼熵,它可看成是最大可能的吉布斯熵。同理,这时的信息熵取值最大,等于 ln n。

撰文 | 丁玖(南密西西比大学数学教授)

(未完待续……)

《返朴》,科学家领航的好科普。国际著名物理学家文小刚与生物学家颜宁共同出任总编辑,与数十位不同领域一流学者组成的编委会一起,与你共同求索。关注《返朴》参与更多讨论。二次转载或合作请联系fanpusci@163.com。