毫不夸张的说,生活在信息时代的我们,已经无法想象没有互联网的生活。各式各样的信息充斥在网络上,每秒都有无数新信息冒出,我们需要做的只是简单的动动手指,利用搜索引擎搜索关键词。这些信息,无论是真实的还是虚假的,有用的还是无用的,我们每个人都难以避免与它们接触。
在 2019 EmTech China“全球新兴科技峰会”上,宾夕法尼亚大学的计算机和信息科学系教授 Dan Roth 在演讲的最开始就呼吁,“互联网上的信息污染问题与我们每个人息息相关,每个人都有权利关心。”
图丨 Dan Roth(来源:DeepTech)
Roth 教授列举几条实际发生的事情,比如 2016 年的美国大选,Facebook 和推特上就曾涌现了很多假账号和假资讯,有些信息已经达到了以假乱真的程度,一度误导了很多美国网民,最后官方帐号不得不站出来辟谣,社交媒体平台也出台了相关措施。
事实上,在世界范围内都存在谣言大肆传播的情况。欧美网民常用的 Facebook,WhatsApp 和推特,中国网民常用的微博和微信,都是虚假信息滋生的地方。互联网和社交媒体的本质是传播信息,由于假信息通常以爆料和颠覆常识为噱头,更容易抓人眼球,因此它们的传播速度很快,尤其容易涉及医疗、教育、科学和公共政策等领域。
在 Roth 教授看来,这种信息污染“是绝对不能接受的”,否则后果可能是致命的。举个例子,现在人们很喜欢在网上搜索某种疾病的治疗方式,然而网上良莠不齐的资料矛盾百出,而且还可能包含作者的深层次目的,比如推销自家产品和技术。想要找到真实可靠的信息,需要具备相关专业知识,才能自己辨别真伪。一旦误信了虚假资料,轻则耽误疾病治疗,重则危及生命。
“所以我们需要开发一个计算框架,帮助人们在这样的信息污染世界中生存,”Roth 教授强调。人工智能和自然语言处理技术(AI & NLP)就可以成为这样的工具,帮助人们找到、收集和整理真实可靠的信息,分辨资讯的真伪。
自然语言处理技术可以分析语句,理解它们背后的深层次含义。Roth 教授表示,借助机器学习的力量,可以更好地从原始文本中提取信息,分析语句和语段之间的关联,让计算机像人类一样理解语言背后蕴藏的意义。
这听起来简单,实现起来却十分困难。因为人类自然而然地就可以理解语言的模糊性,结合语境、上下文和文化背景,就可以分析出语句的深层含义,但对于计算机来说,它习惯于明确的指示,并不具备理解语言模糊性的能力,需要研究人员付出很大的努力去实现和完善。
Roth 教授最新的研究就着重于整合和完善自然语言处理过程,主要从了解信息源和理解证据入手。
(来源:Dan Roth)
首先,自然语言处理系统必须知道如何找到可靠信息源,即去哪里证实手里有的信息?在找到信息源之后,系统还需要知道如何看待信息源的背后目的和含义,即它持有什么样的视角(perspective)?
Roth 教授解释说,一千个人眼中就有一千个哈姆雷特,每个人看待故事的角度不同,因此系统在收集信息时,也需要具备辨别视角的能力,注意审视不同的条件和情况,不能以偏概全,防止被一些带有偏见和误导性的信息左右。
这就要求系统去寻找证据(evidence),来分类和支持不同的信息,证明哪些信息更可靠,更有价值,更有意义。这样系统就可以更好地理解语言究竟要表达什么意思,背后有什么意图。
在 Roth 及其团队的研究中,他们进行了一项实验—识别有关《一周偶像》信息。实验中使用的原文提到了节目主持人是 1983 年出生的,但系统找到了多种可靠证据证明,他们是 1978 年出生的。这说明原文出现了事实性错误,于是系统将其标识为“虚假信息”。
Roth 解释说,“整个语言识别系统就像是网络一样,对于不同的资讯或主张信息(claim),会找到很多不同的信息源(source),为了验证这些信息源,系统会收集不同的证据(evidence)。”
这种逻辑模式模拟了人类的批判性思维,即利用证据分析信息源的可靠程度,理解它们背后的内容和意义。只有这样才能从根本上杜绝错误信息的大规模传播,帮助人们获得可信的信息,并且真正理解它们,实现价值的最大化。
“我相信,在每个人都开始关注这件事情后,整个人类社会都将会收获巨大。”