NLP大牛挑战社交媒体难题：如何在“信息污染”的世界中生存？

毫不夸张的说，生活在信息时代的我们，已经无法想象没有互联网的生活。各式各样的信息充斥在网络上，每秒都有无数新信息冒出，我们需要做的只是简单的动动手指，利用搜索引擎搜索关键词。这些信息，无论是真实的还是虚假的，有用的还是无用的，我们每个人都难以避免与它们接触。

在 2019 EmTech China“全球新兴科技峰会”上，宾夕法尼亚大学的计算机和信息科学系教授 Dan Roth 在演讲的最开始就呼吁，“互联网上的信息污染问题与我们每个人息息相关，每个人都有权利关心。”

图丨 Dan Roth（来源：DeepTech）

Roth 教授列举几条实际发生的事情，比如 2016 年的美国大选，Facebook 和推特上就曾涌现了很多假账号和假资讯，有些信息已经达到了以假乱真的程度，一度误导了很多美国网民，最后官方帐号不得不站出来辟谣，社交媒体平台也出台了相关措施。

事实上，在世界范围内都存在谣言大肆传播的情况。欧美网民常用的 Facebook，WhatsApp 和推特，中国网民常用的微博和微信，都是虚假信息滋生的地方。互联网和社交媒体的本质是传播信息，由于假信息通常以爆料和颠覆常识为噱头，更容易抓人眼球，因此它们的传播速度很快，尤其容易涉及医疗、教育、科学和公共政策等领域。

在 Roth 教授看来，这种信息污染“是绝对不能接受的”，否则后果可能是致命的。举个例子，现在人们很喜欢在网上搜索某种疾病的治疗方式，然而网上良莠不齐的资料矛盾百出，而且还可能包含作者的深层次目的，比如推销自家产品和技术。想要找到真实可靠的信息，需要具备相关专业知识，才能自己辨别真伪。一旦误信了虚假资料，轻则耽误疾病治疗，重则危及生命。

“所以我们需要开发一个计算框架，帮助人们在这样的信息污染世界中生存，”Roth 教授强调。人工智能和自然语言处理技术（AI & NLP）就可以成为这样的工具，帮助人们找到、收集和整理真实可靠的信息，分辨资讯的真伪。

自然语言处理技术可以分析语句，理解它们背后的深层次含义。Roth 教授表示，借助机器学习的力量，可以更好地从原始文本中提取信息，分析语句和语段之间的关联，让计算机像人类一样理解语言背后蕴藏的意义。

这听起来简单，实现起来却十分困难。因为人类自然而然地就可以理解语言的模糊性，结合语境、上下文和文化背景，就可以分析出语句的深层含义，但对于计算机来说，它习惯于明确的指示，并不具备理解语言模糊性的能力，需要研究人员付出很大的努力去实现和完善。

Roth 教授最新的研究就着重于整合和完善自然语言处理过程，主要从了解信息源和理解证据入手。

（来源：Dan Roth）

首先，自然语言处理系统必须知道如何找到可靠信息源，即去哪里证实手里有的信息？在找到信息源之后，系统还需要知道如何看待信息源的背后目的和含义，即它持有什么样的视角（perspective）？

Roth 教授解释说，一千个人眼中就有一千个哈姆雷特，每个人看待故事的角度不同，因此系统在收集信息时，也需要具备辨别视角的能力，注意审视不同的条件和情况，不能以偏概全，防止被一些带有偏见和误导性的信息左右。

这就要求系统去寻找证据（evidence），来分类和支持不同的信息，证明哪些信息更可靠，更有价值，更有意义。这样系统就可以更好地理解语言究竟要表达什么意思，背后有什么意图。

在 Roth 及其团队的研究中，他们进行了一项实验—识别有关《一周偶像》信息。实验中使用的原文提到了节目主持人是 1983 年出生的，但系统找到了多种可靠证据证明，他们是 1978 年出生的。这说明原文出现了事实性错误，于是系统将其标识为“虚假信息”。

Roth 解释说，“整个语言识别系统就像是网络一样，对于不同的资讯或主张信息（claim），会找到很多不同的信息源（source），为了验证这些信息源，系统会收集不同的证据（evidence）。”

这种逻辑模式模拟了人类的批判性思维，即利用证据分析信息源的可靠程度，理解它们背后的内容和意义。只有这样才能从根本上杜绝错误信息的大规模传播，帮助人们获得可信的信息，并且真正理解它们，实现价值的最大化。

“我相信，在每个人都开始关注这件事情后，整个人类社会都将会收获巨大。”