「重磅！最新发现癌症相关基因」真相：基本找不着跟癌症无关基因

Every gene can (and possibly will) be associated with cancer.

编译 | Kestrel

刚刚过去的十月是世界乳腺癌防治月。作为乳腺癌防治活动的公认标识，粉红丝带一直在默默提醒着人们，人类将癌症研究放在何等重要的位置。美国国立卫生研究院（NIH）2021年整年的预算是429亿美元，国立癌症研究院就划走了65.6亿美元，占比超过15%。这些投入到癌症研究的大把资金将转化为一篇篇科研文献。

如此巨量的资金投入癌症研究领域，会对生命科学领域的整体研究产生什么影响？

英国利物浦大学研究员Jo?o Pedro de Magalh?es 于上个月末在期刊《遗传学趋势》（Trends in Genetics）上发表了一篇讨论“科学之科学”（以科学研究本身为研究对象的科学研究）的文章，尝试回答了这个问题。Jo?o Pedro de Magalh?es博士的研究领域是衰老与长寿，现在专攻减缓衰老的课题。在开始分析衰老相关的遗传因素时，他注意到，相关文献中的大多数都是癌症研究，这显示了人为因素造成的偏差。文献检索的结果既可能帮助研究人员摸清某些领域科学知识的框架，也可能使其更加模糊难辨。

作者分析了PubMed数据库上的文献，结果显示，PubMed上的文章总共提及了17371个人类基因，其中87.7%的基因或多或少被认为和癌症有关——可以说，绝大部分人类基因都可能与癌症有这样或那样的关联。同时，数据库中癌症相关的研究简直不要太多，关于其它严重疾病的文章数量（例如中风）则不免相形见绌。

图1. 癌症（蓝色）与中风（橙色）相关文献数量比较。PubMed数据库中3000余万篇论文中，超过 400 万篇与癌症有关。相比之下，仅有约 35万篇论文与中风相关。截至 2020 年，每年有超过 20 万篇与癌症相关的论文。

据此，Jo?o Pedro de Magalh?es提出了“文献发表偏差”（publication bias）的概念，也称“研究人员偏差”（researcher bias），表示研究者根据实验结果的指向以及证据的强度来决定是否发表论文、发表在哪里的现象。缺少统计上的显著性的研究，发表的可能性会比较低；因为挂上一个癌症的标签，论文更容易被更具影响力的期刊接受，所以涉及癌症的文章看起来就会比较多。

不久前，TheScientist杂志采访了Jo?o Pedro de Magalh?es博士，探讨了这一偏差效应可能带来的问题。

Q：你的研究主要聚焦在衰老和寿命方面，怎么会想到写这篇癌症遗传学文章的呢？

A：我说到的“文献发表偏差”或者“研究人员偏差”的想法其实很早之前就有了。很简单，就是我们对于某些基因或者分子过程或者疾病的理解要远多于其它的基因、分子、疾病。

我们做了很多系统学研究。比如说，我们知道衰老并不是由单个基因控制的。有一些先天的因素，比如某个基因的突变，会让你衰老得更快。再例如癌症或者老年痴呆（阿尔兹海默病），有些人可能因为携带某些基因突变而比其他人更容易患癌，或更容易老年痴呆。但总体而言，大多数复杂表型——诸如衰老、长寿、癌症、老年痴呆、心血管疾病等等——是由多个基因以及环境共同造成的。这就需要你去研究不同系统的组分之间的相互作用。

进行这种分析的时候，让我比较担忧的一点就是文献发表偏差。你会查到某些基因的信息要远多于其它基因，那该怎么控制文献发表偏差的影响呢？基本上，我的想法就是，没法控制。人为偏差就是影响着我们的研究方式，就是有一些主题和基因被研究得比较多。

当你研究基因的时候，你总是会找到一些跟癌症有关联的基因。正是这点让我想到要做这次分析。关于癌症的研究会比其它主题的研究要多得多。我觉得这是个尚无人探索过的主题——不是癌症本身，我指的是“科学之科学”，包括研究过程中的人为偏差。我们对某些基因的研究比对其它基因多得多，我觉得这也是个问题。这样的偏差存在，可能是有合理的原因，也可能只是历史原因。我只是希望科学更具效率。

Q：癌症的细分形式林林总总，有那么多基因跟癌症存在某种联系也见怪不怪吧。你是说看到科学家把这么多的基因放在肿瘤的语境下研究，你很惊讶吗？

A：数目之巨让我惊讶。对于至少被一篇文献探讨过的基因，我觉得大概其中90%会跟癌症有牵扯。你再看那些被超过百篇文献讨论过的基因，几乎就找不到跟癌症没关系的。我不是觉得总体的结果很惊人，而是这个偏差效应的程度之大，很惊人。

Q：那么，强调这么多人类遗传学文献或聚焦或提及癌症这件事情，是为了什么呢？你觉得研究者会由此走到何方？

A：结论有两点。

第一点刚刚我提过，任何时候，当你做系统的基因网络分析，你都得考虑到，会涉及的每个基因已有多少文献探讨过。这是一个可能引起混淆的因素。而实际上，网络分析常常没有考虑这些偏差。解读结果的时候尝试修正这些偏差，或者至少知道它们的存在，我想会对你分析的质量有帮助。

图2. 重构调控网络举例。根据在胶质母细胞瘤中的基因表达数据，计算机预测了包含6个转录因子的调控网络。（Carro MS， et al. Nature.2010）

其二是对于“癌基因”或“癌症相关基因”这样的说法，我们应当更慎重些。几乎所有基因都可以叫“癌症相关基因”。所以你在写文章或申请经费的时候，对于绝大部分人类基因，你都可以加上一句“这个基因跟癌症相关”。

当你解读结果或申请经费的时候，要小心。做大尺度分析（注：例如研究一种疾病所涉及的所有蛋白质的相互作用网络），找到多个基因的时候，它们很多会是癌症相关基因。解释分析结果的时候得把这点考虑进去。

Q：你在文章中写道，“在一个几乎任何东西、任何基因都可以跟癌症扯上关系的科学世界中，真正的挑战在于确定哪些是驱动肿瘤发生的关键、哪些是有潜力的治疗靶标。”可以详细谈谈这些挑战会体现在什么地方吗？

A：找到很多跟某个表型有关联的基因，并不意味着这些基因就重要。可能有相关性，但不一定存在因果关系。

在某个生命过程中，发现一个基因是靶点，或者发现它受到抑制，并不就意味着就可以在临床上加以利用。所以，最开始讨论的是相关性，然后就要确定因果性，最后才是找寻好的靶点。

我认为相比其它的疾病或生理过程，癌症可以说是研究起来最直接的。例如，你可以找到各种肿瘤的细胞系作为研究材料，研究体系的问题就解决了。实验方法上，癌症研究没有其它某些疾病那么繁复。找到与癌症相关的基因相对容易，但要区分相关和因果。还有，就算因果性有了，也不意味着这个基因就是个好的治疗靶点。所以下一步就是找到驱动癌症发生的关键因子。有一些我们已经知道了，还有一些不知道，还有些有潜力的治疗靶点尚未为人所知。

Q：你在文章中可能有点幽默地提到，多亏了这些可能存在的与癌症的关联，科学家们可以以此为理由去申请经费来研究几乎任何基因。那你会觉得研究人员们真的已经这么做了吗？比方说我是个遗传学家，想要研究一个人们不太了解的基因，那我指出“该基因与癌症相关”，会对我的研究有利吗？

A：我不太清楚申请癌症相关研究经费的具体细节是怎么样的，但是，如果你找到一个跟衰老有弱相关性的基因，你就可以在经费申请里面说，这个基因与衰老有潜在关联，我们想要在衰老研究的语境下去研究它。

这会带来另一个问题，就是我们该如何评估一项研究。

我们是该专注于那些已经比较了解的基因，还是去研究那些鲜有涉及的基因呢？这是个开放式的问题。目前来说，你要申请任何研究经费，通用的办法是要有一些初步的数据来支撑。也有人会说，我们应该更支持去研究那些人们还不太了解的基因。在这个问题上我不挑边站，但我认为这是一个当前语境下可以思考的问题。

现在回答你的问题：是的。会有利。你可以把“与癌症相关”写到经费申请里面去，即使这个相关性不是很强。这又引出另一个问题：应该如何去审核评估经费申请呢？这又是另一个大的问题了。

Q：这么多研究与肿瘤相关联，有什么不好吗？它是否会掩盖其它重要的研究工作？

A：我觉得这也是一个大问题。我们应该研究啥？经费应该投给什么样的研究？因为癌症比阿尔兹海默病容易研究，所以关于癌症的已有文献就比关于老年痴呆的多。我们注入到癌症研究中的资金要比注入到衰老或其它疾病研究的要多得多。这样做到底应不应该，可能不太是一个科学问题，而是个社会问题。

我们应该投钱来研究癌症、找到癌症的治疗方法。我们也应该找到阿尔兹海默病、心脏病的治疗方法。如何去分配经费？我觉得这是个难题。我也没有答案。

参考文献

[1] https://www.the-scientist.com/news-opinion/q-a-nearly-every-single-human-gene-can-be-linked-to-cancer-69365

[2]https://www.cell.com/trends/genetics/fulltext/S0168-9525(21)00266-3