垃圾的基因还真的是垃圾?

垃圾基因的发现

上世纪科学史上最重大的一件事就是DNA双螺旋结构的破译。从此,我们知道了基因以及它的作用。但自那以后,我们对DNA和基因的了解一直还在不断深化。

当科学家首次弄清楚DNA上的碱基是如何指导蛋白质合成的时候,他们以为,所有DNA上的碱基都是为了编码制造蛋白质而存在的。然而,到了20世纪70年代,有一点变得越来越清楚了,即基因组中仅有一小部分DNA序列参与了编码蛋白质,其余则都是垃圾基因。它们不参与蛋白质的合成,在生命活动中没有显示出任何生理功能。

例如,科学家第一次对人类基因组进行测序时惊讶地发现,在长达30亿对碱基的人类基因组中,传统意义上的基因(即编码蛋白质的DNA片段)居然如此稀少。最开始他们预测,至少应该存在10万或更多的基因,可是最后才找到了大约3.5万个,而且最终得到确认的只有2.1万个左右。剩余的大量DNA全都是没有用的“垃圾”。

是真“垃圾”还是假“垃圾”?

但尽管这样,很多生物学家依然认为,这些垃圾基因可能有某些次要的功能,比如调节其他有用基因的活性等。为了确证这一点,2003年,美国启动了ENCODE计划(该项目至今还在进行中)。至2012年,ENCODE计划一共对人类基因组中3%的DNA序列进行了分析和研究。得出的结论是:在调查过的DNA序列中,大约有80%至少从生物化学的角度来看是据有某些功能的。这项成果被评为2012年全球科技十大新闻之一。

如此一来,垃圾基因的比例就大大缩小了。可是,一些生物学家对ENCODE的结论并不服气。美国休士顿大学的丹·格厄尔就是其中之一。

他和ENCODE的根本分歧在于如何定义“基因是具有功能的”。在ENCODE计划中,只要观察到某段DNA序列在生物化学上表现出轻微的活性,就判定它是具有功能的。但在格厄尔看来,这是远远不够的。相反,他认为,只有当一段DNA序列是为了某个实实在在的生理用途进化来的,一旦被突变破坏,就会产生有害的影响,只有这样的DNA序列,才能被定义为具有功能的。

换句话说,他认为ENCODE对有用基因的定义太宽泛了,这就好比说,你要是把动物定义成“会动的物体”,那么滚动的石头,流动的水也可以算是“动物”了。

进化需要大量垃圾基因

格厄尔认为,许多人之所以难以接受DNA上垃圾基因占绝大多数这一事实,一个劲地要为垃圾基因“翻案”,是因为他们没考虑到垃圾基因在进化上的重要作用。

我们知道,生物进化的内在驱动力是基因突变。造成突变的原因有紫外线的照射、在细胞分裂过程中DNA复制出错等。突变是随机的,就是说在整条DNA上任何一个位置,不论是有用基因还是垃圾基因占据的位置,发生突变的概率是均等的。在进化过程中,子代往往从父辈那里遗传了一大堆突变基因。如果这些突变造成严重的后果,有些子辈在未生下自己的子嗣之前就会死去。进化通过这种方式来阻止一个物种中有害突变的逐代积累,不这样的话,就会危及整个物种的生存。

我们不妨试想一下,倘若我们身上大多数的DNA具有某种生理功能,那意味着,大多数突变将落在这些DNA序列上,生下的大多数孩子将会因有着这样那样的缺陷而不能传宗接代。为了得到一个健康的孩子,要以生下很多有缺陷的孩子为代价。这是与实际情况不符的。相反,如果我们的大部分DNA是垃圾,那么大多数的突变就不会对我们的繁衍造成影响。

格厄尔计算了一下,在不同情况下为了能够进化,一对夫妇需要生多少孩子才能避免积累太多有害的突变。

他发现,如果整个基因组的DNA序列都具有生理功能,这对夫妇需要大约生1亿个孩子,才能保证其中有2个是正常的(2个是保证人类不至于数代之后灭绝的最低数目)。即使基因组中只有1/4的DNA序列据有生理功能,每对夫妇平均也要生近4个孩子,才能保证有2个是正常的。

考虑到基因突变率和史前人类的平均生殖率,格厄尔计算表明,我们的DNA中大约仅有8%到14%可能具有某种实实在在的生理功能。这与2014年的另一项研究所下的结论不谋而合。在那项研究中,科学家将我们的基因组与其他物种的基因组进行了比较,得出结论:人类基因组中大约仅有8%具有某种实实在在的生理功能,所以只有2.1万个有用基因并不奇怪。