计算语言学揭示现代英语小说中普遍存在的性别偏见现象

研究人员对入围布克奖的小说进行了数据挖掘,发现男性大多被描述为才华横溢、无情的人,而对女性的描述则是年轻可爱。

性别偏见是社会中存在的一个潜在问题,渗透到我们的文化、工作场所、甚至我们的语言当中,通常以我们察觉不到的方式存在着。

改变性别偏见的第一步是发现偏见存在的地方,而这正是新兴的计算语言学的用武之地。这个相对较新的学科通过使用数据挖掘和机器学习来研究文本。揭示了从维基百科文章到语言本身的各种偏见。

图|布克奖入围的小说中与男性和女性术语相关的形容词。(来源:麻省理工科技评论)

布克奖被提名为世界最高文学奖之一,每年被授予给最好的英文原创小说,但在近日,IBM 印度公司的 Nishtha Madaan 和他的同事们使用计算机语言学揭示布克奖的文学作品中存在显著的性别偏见。

他们所用的方法相对简单。Madaan 和他的同事考虑了 1969 年至 2017 年间入围该奖项的所有书籍,总共约 275 部小说。研究小组并没有分析小说中的文本,而是研究了 GooDreads 网站上关于这些图书的描述。GooDreads 是亚马逊的一个社交目录,可以免费获取超过 4 亿册图书的描述、评论和评分。然后他们研究了男性和女性在这些图书评论中是如何被描述的。Madaan 等人说:“这揭示了书中在职业和与人物言行举止等方面都普遍存在着性别偏见和刻板印象。”

首先,在这些书中,女性被提及的次数远远少于男性,提及女性平均约为 15 次,而男性为 30 次。同时,书中对男性和女性的描述也非常不同。为了说明这一点,Madaan 和他的同事从文本中提取了与男性和女性术语相关的形容词。然后,他们做了词云以显示在不同的性别中哪些词语出现的频率更高。研究小组还通过提取角色的职业分别创造出男性和女性的词云来研究刻板印象。男性的高频职业是:医生、心理学家、教授、科学家、商界人士、董事等等。相比之下,女性的高频职业是:教师、讲师、护士、妓女、童养媳等等。Madaan 等人说:“我们观察到,在分析男性和女性的职业时,较高级别的职业被指定给男性,而较低级别的职业则被指定给女性。”

然而,性别偏见现象目前也有一些积极的变化迹象。研究小组说,近几年来,在入围的书籍中,已经开始有女性扮演核心角色。其中包括 Madeleine Thien 的《Do Not Say We Have Nothing》, Ali Smith 的《How to be Both》和 Karen Joy Fowler 的《We Are All Completely Beside Ourselves》等。

这项研究是一项有趣的工作,但也有一些缺点。其中最重要的问题是,团队没法清楚地描述所收集的数据,这个数据库的大小、数据库中的文本在何时由何人所写。这些问题使得这项工作难以评估。例如,书中的描述可能不是作者自己写的,而是 Goodreads 的记者写的。因此,有些偏见可能来自这位记者,而不是书的作者。

当然,这些书籍的作者可能会争辩说,他们的小说揭露了偏见及其对社会的影响。基于这个原因,小说必须在文本中明确反映这种偏见,例如作者可能要表明,他原本就没打算创作一部性别平等的小说。

尽管如此,这篇论文显示了计算机语言学在具有文化意义的作品中探索偏见的潜力。事实上,作家们已经使用这一技术来探索宝莱坞电影剧本中是否偏见,并发现了一些性别方面的陈旧观念,特别是在职业选择上。

该小组还在开发一种消除偏见的机制。这种机制对入围布克奖的小说有多大用处还不清楚,但它无疑突出了一个需要得到更多关注的问题。