论文造假再触底线!不同作者,不同疾病,却能得出“相同”结果?

今年 2 月,知名 “学术打假人” 伊丽莎白·比克(Elisabeth Bik)爆出猛料,一次性点名超过 400 篇问题论文,这些几乎全部来自中国的几十家医院,在条带、图形版式和标题上高度雷同,似乎都产自同一家 “论文工厂”。比克甚至认为,此类出自论文工厂的文章可能有几千篇。

一时间,“论文工厂” 事件引起了国内民众的高度关注与讨论。

而在短短 3 个月时间后,比克再次曝光一批疑似造假论文,此次列出的 8 篇论文均来自不同的医院、不同的作者,论文研究的疾病也是完全不同的癌症种类,但结果却出奇一致,甚至论文当中的图表和数据都出现了大面积的雷同情况。

将如此明目张胆的学术造假论文发表在国际学术期刊上,堪称是刷新了学术造假的下限,简单而粗暴。

让人唏嘘的是,和前几次问题论文事件一样,这次被曝光的相关人员依然全数来自中国。

微博上一位执业医师、健康博主表示,这是 “丧心病狂的造假”。其中 3 篇论文竟然还在文中注明,项目得到了国家自然科学基金的资助。

此次涉及人员分别来自南京医科大学附属苏州医院肾内科、河南大学第一附属医院胸心血管外科、福建医科大学附属漳州市医院普外科、郑州大学第一附属医院呼吸科、辽宁省肿瘤医院影像科、辽宁省肿瘤医院结直肠外科、山东大学齐鲁医院妇产科和青岛大学附属医院普外科。

图|8 篇论文(来源:PubPeer)

在这些相似的论文中,大部分论文出自 2017-2018 年,其中,最早一篇发表在 2017 年,最新一篇发表于 2020 年 4 月。这 8 篇论文被发表在以下 5 种期刊上,影响因子在 3-6 之间。

International Immunopharmacology,影响因子 3.361,1 篇;

Cellular Physiology and Biochemistry,影响因子 5.5,1 篇;

journal of cellular and molecular medicine,影响因子 4.658,1 篇;

Open Biology,影响因子 3.89,2 篇

Oncotarget(2017 年已从 MEDLINE 中删除),3 篇

“突破了我对学术造假的所有认知,从文章署名来看,从一线医生到主任副主任医师、医院副院长,还有多篇是国家自然科学基金资助。” 一微博网友表示。

DeepTech 通过邮件向 8 篇论文的通讯作者核实情况,截止到发稿时间,未能得到任何回复。团队成员至今也未在 PubPeer 上进行任何回复。

对于论文本身可能存在问题,目前还需要等待团队的进一步回应。

8 篇论文高度相似

而种种迹象表明,这批问题论文很可能还是出自 “论文工厂” 之手。

(来源:Twitter)

同时,比克在学术交流平台 PubPeer 上发文,对比了其中两篇论文,发现两者具有惊人的相似性。其中,一篇论文的数据来自福建医科大学附属漳州市医院的 286 名胃癌患者;另一篇论文的数据则来自中国医科大学、辽宁省肿瘤医院的 384 例非小细胞肺癌患者。

比克发现,这两篇均发布于 2018 年、基于完全不同研究项目的论文,有着相似的 Kaplan-Meier 曲线、相似的线图、相似的蛋白质印迹、相似的柱状图和相似的统计数据。

图|相似的 Kaplan-Meier 曲线和线图

图|相似的蛋白质印迹和柱状图

图|相似的实验数据

比克甚至发现,文字上的相似性也很明显。

(来源:Twitter)

比克进一步对比了所有 8 篇论文的 Kaplan-Meier 曲线,尽管在几篇论文中没有中部的黑线,但红色和绿色曲线的形状却出奇地相似。

图|8 篇论文均具有相似的 Kaplan-Meier 曲线(DeepTech 制)

她在 Twitter 发问,“如果有 2 个不同的患者组,2 个不同的癌症类型和 2 个不同的研究机构,那么结果将完全相同的机会是多少?” 随后,比克给出肯定答案,“显然为零”。

(来源:Twitter)

两篇论文的通讯作者使用了同一个邮箱:jiangshuzhongxu@gmail.com,这也符合德国独立科学记者列昂尼德·施奈德(Leonid Schneider)此前的推断,“这些账户的控制者肯定不是某个被列为论文作者的医生,而是论文工厂的经营者”。

图 | 比克推测问题论文并非简单的抄袭

在这一系列论文里,比克在对比当中敏锐发现论文文本出现了大面积重合,更重要的是,两篇论文在接收/发表时间上也刚好 “撞车”。

信息显示,其中一篇在 2018 年 5 月被期刊接收,同年 8 月发表在网站上;第二篇论文手稿最早接收于 2018 年 7 月,最后在同年 10 月发表。

这一细节表明,在第一篇论文公开发表之前,疑似雷同的论文手稿就已经完成且被接收,意味着这不会是简单的论文抄袭。

比克在推特上推测,其中一个可能的原因是第一篇论文在同行评议阶段被 “窃取”;第二个则是,两篇论文可能出自同一个论文工厂之手,出现雷同的原因是论文工厂将一样的论文进行 “二次售卖”。

DeepTech 就此事与该论文打假团队取得联系,团队成员证实,目前已经有足够的理由推测出这些更像是有组织的代写,而不像是个人的抄袭。

团队成员还透露,除了这次曝光的 8 篇论文,团队在几年前就发现了其他类似的问题论文。这种情况也早已不是第一次出现。

团队向 DeepTech 分享了一个博客,记录了此前发现的一批疑似造假论文,其中相似图片在多篇论文里重复出现的手法与这次的如出一辙,而论文作者也同样来自中国。

图 | 团队通过梳理发现,多篇论文图表存在交叉复用的情况,称为“论文多胞胎”

惊天学术造假,3 个月前刚刚发生

这并不是近期唯一发生在我们身边的 “论文工厂” 造假事件。

3 个月之前,比克和她的团队发现了 400 多篇来自不同机构的论文,似乎都产自同一个“论文工厂”,这些论文几乎全部来自中国的几十家医院,其中甚至还包含了多家三甲医院。比克当时提到了以下 6 家三甲医院:

济宁市第一人民医院(三甲):101 篇论文(几乎没有重复作者,涉及到儿科 15 篇、心脏病学 6 篇、内分泌学 6 篇、肾病学 6 篇、血管外科 5 篇等不同科室);

吉林大学中日联谊医院(三甲):59 篇论文;

青岛大学附属医院(三甲):23 篇论文;

临沂市中心医院(三甲):16 篇论文;

郑州大学第一附属医院(河南最大的三甲):16 篇论文;

济宁医学院附属医院(三甲):12 篇论文。

据当时统计,这些相似的论文中,最早一篇发表在 2016 年,大部分论文出自 2018-2020 年。其涉及的期刊也并不都是所谓的 “灌水刊”,整体质量还不错,这也是当时引起很大轰动的原因。

被列出的 400 多篇论文主要集中发表在 6 种期刊,这些期刊的影响影子在 2-5 之间,其中,Cellular Physiology and Biochemistry 已于 2019 年 1 月被踢出 SCI。同时涉及 Wiley、Elsevier 等多家出版社。

比克的这一发现来自匿名用户 Indigofera Tanganyikensis 提供的线索,当时这名用户在 PubPeer 上指出,一些论文的蛋白质印记检测板之间的背景具有很强的相似性,之后他们发现,不仅是同一篇论文的背景相似,不同论文的检测板之间也出乎意料地相似。

在注意到这条线索后,比克进行了后续跟进。她发现,在 400 多篇论文中,蛋白质印迹条带之间的间隔都非常规则,外观呈哑铃或者蝌蚪状,没有常见的污迹。所有的条带都放在相似的背景上,表明它们是从其他来源复制和粘贴过来的,或者是电脑合成的。

除了数据图本身,这些论文的柱状图也很有规律:以灰色调居多,左边是黑色条,每幅图都是双边误差线。不排除这样的布局可能是一个比较流行的标准图像样式,但不同机构上百篇论文的版面设计都一样,这的确少见。

比克甚至总结出了这些 “论文工厂” 的标题模板,即 “插入一个分子名称、选一个动词(一般现在式、第三人称单数形式)、选一到两个细胞转化过程、选择一种癌症或者细胞类型、选一个连词、选一个动词(现在进行式)、插入 miRNA 或者神经通路的名称”。

在此次最新事件中,这 8 篇论文的标题中也发现了同样的规律。比如,

Interleukin-37 mediates the antitumor activity in colon cancer through β-catenin suppression;

Interleukin-36 Receptor Antagonist Is Associated With the Progression of Renal Cell Carcinoma;

Interleukin-35 Expression in Non-Small Cell Lung Cancer Is Associated With Tumor Progression。

截止此次发稿前,已有高达 453 篇论文在列表中。如果此类现象继续猖獗下去,这一列表将会更长。

当时,打假团队成员之一 TigerBB8 表示,其在揭露论文造假的过程中,曾收到过来自中国论文买家的诉苦信息,“白天,我有门诊手术;下班后,我得照顾我的孩子。晚上 10 点以后,我只有一点点时间,但这远远不够,因为科学研究需要大量的时间。”

针对此次最新事件,也有微博网友表示,此类事件屡屡发生一部分原因是医生的职称晋升制度存在问题。

学术造假过于猖獗

近年来,“论文造假” 现象已是屡见不鲜。

此前 “论文工厂” 事件涉及到的图片和数据造假问题,也很常见。现阶段,学术出版界尚缺少系统的方式来甄别图片造假的问题。

在 DeepTech 此前的报道中提到,比克团队认为,对图像和数据进行分析是揪出论文造假漏洞的重要途径,这也是比克团队在从事论文打假工作过程中的最重要关注点之一。

长期以来,打击蓄意的论文造假问题并不是学术出版届的关注重点。比如,同行评议环节的审稿人在收到论文之后,一般不会怀疑数据、图片的真实性,而是关注论文中的实验设计是否合理、是否存在不严谨等环节。

此前据 Nature 报道,到目前为止,多数学术期刊也没有使用针对性的手段识别论文中的图片是否重合,原因无非是太贵或太耗时,更没有可以大规模筛查论文的软件。

但近年来中国学者在国际的学术期刊上影响力越来越大,其中抄袭、恶意造假事件频频出现让这一问题得到更多重视。

近期,以爱思唯尔和约翰威立为首的国际学术出版巨头正在展开行动,探索如何自动识别和标记科研论文中那些被篡改或重复使用的图片。

他们已经提出了有史以来第一个正式的跨行业倡议,为此还成立了一个新的工作小组,为筛选有问题的论文图像的软件制定标准。

该工作小组由 “国际科学,技术和医学出版商协会(STM)” 旗下的标准和技术委员会牵头成立。STM 协会总部位于英国牛津,是一个主要维护学术、科学、技术、医学和专业出版商利益的组织。

工作小组由爱思唯尔的研究完整性负责人 IJsbrand Jan Aalbersberg 担任主席,成员除了来自爱思唯尔和约翰威立,还有 Springer Nature 和 Taylor&Francis 等出版商代表,几乎囊括了所有主流学术期刊。

“最终目的是打造一个可以帮助我们自动识别图像篡改的环境。” Aalbersberg 表示。

但到目前为止,这一针对图片造假的应对措施还处于早期阶段。而论文造假背后,由各种来自学术界、医学界的系统性问题未被解决的话, “造假” 和“反假”必然还会是一个长期的拉锯战。

事件发生后,有国内微博网友评论,这种现象“害了那些这些苦逼想思路,累趴做实验,熬夜写论文的真正科研工作者。”

而另一方面,在原本相对纯净的学术界,大量的恶意假文章会给科学论文带来难以挽回的污染问题。