假基因是没有功能的基因拷贝
本小节内容翻译自 Genes XI, chapter 8.11, p183-185。部分句子参考《基因X》中文版的翻译进行了调整。
关键内容提点
- “加工的假基因”(processed pseudogenes)来自于mRNA转录本的逆转录与整合
- “未加工的假基因”(nonprocessed pseudogenes)来自功能基因的不完整复制(duplication),或第二拷贝(second-copy)的突变
- 一些假基因可能获得一些与他们的亲本基因(parent genes)不同的功能,例如调节基因表达,也因此他们可能会获得不同的名字
正如前一章所述,假基因是功能基因的拷贝,并且有一些变异区或者缺失区,这导致它们可能不会产生功能性多肽的产物(但是它们有可能转录,而转录产物可能具有调控功能)。例如,与他们的功能性同僚(functional counterparts)相比,许多假基因含有移码突变或无义突变,这些突变导致它们无法产生有功能的蛋白。从假基因的起源模式来看,一共可以分为两种:
加工的假基因(processed pseudogenes) 来自成熟mRNA转录本的反转录产物,这些转录本被反转录为cDNA,然后整合到了基因组中。这可能发生在细胞中存在活性逆转录酶的时候,如在活性逆转录病毒感染或逆转录病毒活性期间。由于mRNA已经经过了加工,因此这一类假基因经常缺少正常表达所需要的调控区。虽然这类基因最初都包含功能性肽段的编码序列,但在形成的一开始就是无功能的。这些假基因也缺乏内含子,可能包含mRNA的poly(A)尾的残余,以及逆转录转座子的侧翼直接重复的特征。
未加工的假基因(nonprocessed pseudogenes) 来自多拷贝基因或单拷贝基因的一个拷贝的失活突变,或者功能基因的不完全复制。通常,这些都是由导致串联重复的机制形成的。一个例子是β-珠蛋白假基因,其在启动子区和外显子区出现了多个突变,并且丢失了剪接位点。如果一个基因连同它的调控区被完整地复制,那么在一段时间内可能会有两个有功能的基因拷贝,但是,在一个副本中发生的失活突变并不一定会受到负选择的影响。因此,基因家族是非加工假基因的一个非常成熟的起源,而在珠蛋白基因家族中存在多个假基因就证明了这一点。另外,一个功能基因的不完全复制,会导致一个新的基因拷贝缺失调控区域和/或编码序列,于是新出现的拷贝会立即成为一个假基因,“在到达时死亡”。
人类基因组中大约含有20000个假基因。核糖体蛋白(RP)假基因由一个很大的假基因家族构成,包含大约2000份假基因的拷贝。这些都是加工的假基因;高拷贝数可能是大约80个功能性RP基因拷贝的高表达率的函数(也就是说,因为RP的编码基因多,因此产生的假基因也相应的更多)。它们插入基因组的过程显然是由L1逆转录转座子介导的。RP基因在物种间高度保守,因此在具有长期独立进化历史和全基因组序列的物种中,识别RP假基因的直系同源基因是可能的。在人类这两千多个RP的假基因中,人-黑猩猩同源的有1282个,而人-大鼠同源的只有11个,人-小鼠同源的则更少,只有6个(然而,大鼠-小鼠同源的有接近400个),这表明灵长类和啮齿类中,大多数RP假基因起源较晚,而大多数祖先物种的RP假基因会因为缺失或突变,在被识别之前就已经丢失了。
有趣的是,RP假基因的进化速率比中性进化的速度更慢,这提示RP假基因可能还有一些功能,因此受到负选择。虽然假基因在刚出现时是无功能的,然而有清晰的例子表明,一些前假基因(former pseudogenes)出现了新功能化(neofunctionalized)或亚功能化(subfunctionalized)的迹象。其中,新功能化(neofunctionalized)指假基因获得了一些新的功能,而亚功能化(subfunctionalized)指假基因获得了其亲本基因的部分功能,或者对亲本基因的功能起到补充。一旦这些假基因重新获得了功能,他们会受到选择压力的约束,因此进化速度会比中性进化的速度更慢。
一个假基因是如何获得一个新的功能?一种可能性是,假基因已经无法被翻译为有功能的蛋白,但其还可以被正常转录。这些无法被翻译的转录本可以影响或调控亲本基因的表达。例如,小鼠中的加工假基因 Makorin1-p1 能够稳定 Makorin1 基因的转录本,后者是一个有功能的基因。一些内源性siRNA是假基因编码的。第二种可能是,一个加工假基因可能插入到了一个带有新的调控区域的位置,例如插入到转录因子结合位点,这种与亲本基因迥然不同的调控环境会让假基因以一种不同于亲本基因的组织特异性方式发生表达。