人类能够本能地学会讽刺,不需要别人帮助就能听出话语里的嘲讽腔调。要让机器弄明白这些可要困难得多,因为它们会严格按照程序设置来读取文字信息,通过数据编码的形式来记录图片,不会想到这些信息背后的意义。如果计算机能够更好地理解网络社交媒体上的信息,连讽刺也能读得懂,该有多么奇妙!别着急,在计算机专家的努力研发下,这项技术突破似乎很快就能实现了。
计算机读懂讽刺不容易
意大利都灵大学计算机专业助理教授罗萨诺·史芬尼拉和雅虎公司的研发人员正试图开发一款讽刺探测引擎,使计算机明白人类语言中蕴含的意思并不总跟表面意思一个样。
描述我们是如何学会讽刺,有时是很难的,因为这取决于许多背景信息。识别讽刺需要认清这些语境,这和筛除垃圾邮件和进行情感分析都大有不同。研究人员观察了大量文字和图像,努力寻找能够让计算机理解信息真正意义的线索。他们发现,如果只看文字本身是不够的,图像提供了重要的背景信息,比如说,一幅冠以“天气好爆了”的下雨图片,放在准备出游的逍遥长假背景下来说,其实就是很扫兴的意思。
让计算机像人一样识别讽刺,何不先看看人类对讽刺的辨识结果?研究人员创造出一种群体采样工具,让众多以英语为母语的网络志愿者们对社交媒体上发布的图像和信息进行分类,分辨这些信息是否具有讽刺性。首先,志愿者们只评价仅含文字的论述,然后,再对含有配图的信息进行分类。志愿者们对于讽刺的看法也不总是一样,不过研究人员发现多数情况下,有图像的信息能够让读者更好地了解文字背后的讽刺信息,更容易看出文字中的讽刺之意。
根据这一点,研究人员设计出一种计算机算法,以数据的形式向计算机呈现了人类对讽刺信息的判定,这使得机器能够使用这些基础信息来审查新发布的信息,判断这些信息中是否含有讽刺意味。采用这一算法,加上图片辅助,计算机可以识别社交网络信息中80%~89%的讽刺语气。因为各个平台上发布的信息运用讽刺的风格略有不同,所以测评的结果也会略有差别。目前来说,计算机对于有配图信息的文字能够理解得更好,如果只有文字没有配图,计算机可能就会有点发懵,辨识讽刺的效果会差一些。
读懂讽刺的重要意义
通过改进计算机算法,未来计算机在基于学习的深度神经式网络支持下会有更好的发展,计算机对讽刺语言的学习能力也会相应提高。同时,社交网络将会源源不断地提供庞大的数据信息,让计算机更准确地理解人类的语言。计算机学习就像小孩子看棒球比赛一样,只看一场球,可能并不明白比赛规则,但是比赛看得够多了,就会慢慢弄懂规则了。
?讽刺是我们语言中非常重要的一个部分,识别出语言中的讽刺具有重要意义。计算机的这种新能力可以帮助市场经理更好地评估公众对于其产品的意见,分辨消费者的评论到底是在夸他们的产品还是在批评产品的问题,由此相应地调整策略,改进产品,以向客户销售更多东西。此外,精明的计算机还能够帮助执法机构通过社交网络上带图片的帖子看到人们对于一些案件或法令的意见,更好地维持公平,有针对性地对缺乏法律常识的人推送相关法律信息,预防一些人因为无知而犯下罪行。国外政客进行选举的时候也可以用这样的系统准确了解民意,给出更好的竞选方案,改变那些起反作用的选举策略,减少不必要的损失。
在新技术的推进下,计算机正变得越来越像我们,能更好地与人类沟通。随着这项技术的成熟,未来计算机说不定也会和我们开玩笑,像好朋友一样调侃你我。
本文源自大科技<百科新说> 2017年第1期杂志