2025-06-24 20:26来源:本站
全基因组序列提供了一个难得的机会,以全球方式解决关键进化问题,这是由于小序列和基因样本而避免的偏见。在这方面,远程连接在四元序列中的远距离连接及其与哺乳动物谱系在450 Myr Ago时的进化差异的组合使得可以探索脊椎动物进化枝中的总体基因组进化。
由于这种事件的灾难性性质和确定它实际上发生的24,25,26的困难,WGD在射线填充的渔线中的发生是一个激烈争议的问题。WGD的确定证明需要确定远程基因组组织中某些独特的特征,以前无法通过可用的数据来解决。
预计WGD后,所得的多倍体基因组通过广泛的基因缺失逐渐恢复到二倍体状态,只有一小部分重复的副本最终保留为功能创新的来源26。因此,寄生虫染色体将仅保留其最初常见基因补体的一小部分,然后通过基因组重排将其分成较小的段。因此,WGD将在相当长的时期内留下两个独特的迹象,然后最终消失。
第一个独特的符号是对寄生态染色体的重复基因。在没有染色体重排的情况下,识别由重复基因的全基因组分布引起的两个WGD引起的两个副染色体非常简单:染色体每个都包含一个来自许多重复的基因对的成员,这些基因对沿其长度沿其长度相同。困难是,这种整洁的图片最终将被染色体的重排模糊,这会破坏染色体和鲜膜内重排之间的1:1对应关系,这将破坏沿染色体沿染色体的基因订购。
我们分析了重复的基因对的全基因组分布,以查看是否可以检测到染色体之间的强对应关系。我们使用保守的标准分别确定了四元和塔基富古基因组中的1,078和995对重复基因(请参阅补充信息)。根据副本之间的无声突变(KS)的频率,有75%的是“古代”重复,它们在四月 - 塔基富古(Tetraodon – Takifugu)物种形成之前产生(图4A)。
这些古代重复的染色体分布遵循WGD的引人注目的模式特征。一个染色体段上的基因具有在单个其他染色体上具有重复副本的强烈趋势(图4B)。由于染色体交换,该对应关系不是完美的1:1匹配,但它比偶然的预期要强得多(补充表SI12)。正如WGD所预期的那样,所有染色体都涉及。值得注意的是,自重复事件以来,一些重复的染色体对,例如Tetraodon染色体(TNI9)和TNI11,在很大程度上不受染色体易位的影响。在其他情况下,一个染色体与另外两个或三个染色体有链接,暗示了融合或碎片化(例如,TNI13与TNI5和TNI19相匹配)。
第二个独特的符号是基因组重复的更强大的标志,是与携带未经WGD的基因组的相关物种的比较。最近,使用了这种比较来证明基于与第二种酵母菌物种kluyveromyces waltii在WGD27,28面前不同的酵母菌酿酒酵母中存在古老的WGD。尽管两个古老的寄生虫区域通常只保留了几个共同的基因,但可以很容易地认识它们,因为它们显示出特征性的2:1映射与交织在一起。也就是说,他们都表现出与K. waltii基因组的同一区域保持守恒的同步和局部顺序,其中酿酒酵母基因在交替的拉伸中相互交织。此类区域称为DC的块(双重保守的同步)。尽管WGD的第一个独特符号仅取决于少数重复的基因,但DCS签名考虑了在相关物种中可以找到直系同源物的所有基因。
我们使用了6,684个四od基因,该基因固定在人类或小鼠中具有直系同源物的单个染色体上,以创建高分辨率的同步图(分别为图5和补充图S11)。该地图包含900个同步组,由至少两个连续基因(平均6.1;最大55)组成,具有同一人类染色体上的直系同源物;同步组包括76%的四元 - 人类直系同源物。与小鼠的同步图包含1,011个同步组,可能反映了啮齿动物谱系中染色体重排的较高程度。
同步地图通常将Tetraodon的两个区域与人类的一个区域相关联。使用精确的标准(请参阅方法),我们为人类定义了DCS块。与酵母研究相反,不需要严格的DCS中基因顺序。值得注意的是,同步组中的大多数(79.6%)直系基因可以分配到90个DC块(图6)。与酿酒酵母27一样,我们看到了WGD期望的独特交织模式,其次是巨大的基因丢失。对中断模式的分析表明,基因丧失是通过在两种四色姊妹染色体上以平衡方式以平衡方式的许多小缺失发生的(平均余额为42%和58%的保留率;补充信息);这与酵母的结果一致。
这两种分析提供了明确的证据,表明四月基因组与哺乳动物谱系发散后的某个时候进行了WGD。第一个测试仅使用了代表从WGD保留的重复基因对的3%基因。第二个测试使用了2:1映射的模式,并与人类和人类之间的80%直系同源物进行了交织。
斑马鱼7,四od子(参见补充图8)和许多其他percomorphs29中的超级hox簇存在,但在Bichir polypterus senegalus30中没有表明该事件影响了大多数遗传植物,但并非全部actinopteryopterypterygians。在Teolost血统的早期,这个时机与塔基富古(Takifugu)最近的进化分析一致,该分析估计了大多数重复的基因对的分歧时间为320-350 MYR AGO31,32。
上面的分析还阐明了染色体内和染色体交换的速率。同步分析显示了广泛的同步段,其中基因含量得到了很好的保存,但基因顺序已被广泛加扰(引人注目的例子包括与人类4q(HSA4Q)和HSAXQ的人类染色体4Q(HSA4Q)和TNI1的保守同步。这与斑马鱼33中的观察结果一致。四元中的重复分析还表明,重复基因对的染色体对应关系已得到广泛保留,而局部基因顺序在很大程度上被大量争夺。因此,两种分析都表明,在四元人血管中发生了相对较高的鲜膜内重排和相对较低的染色体交换。
然后,我们试图利用四卫和人类基因组之间的对应关系,以试图重建其骨(骨脊椎动物)祖先的核型。DCS阻止了源自共同祖先区域的复制而产生的四元区。值得注意的是,DCS很大程度上落入了12种简单模式:八个病例涉及两个当前的四od染色体,涉及三个涉及三个电流四卫染色体的病例(图7和表6)。第一组表示祖先染色体在很大程度上没有因染色体交换而无法触及的情况。第二组表示发生了一个主要易位的情况。
人类基因组中的四元直系同源物的分布(在补充图S12中以牛津网格的形式显示)提供了详细的记录,可用于部分重建两个谱系中重排的历史。我们考虑了由各种类型的染色体重排产生的预期分布,假设鲜血体内洗牌的程度相对较高(图8;另请参见补充信息)。我们发现,只有十个大规模的染色体事件足以在很大程度上解释数据,从而将12个染色体的祖先脊椎动物核型连接到21个染色体的现代四齿基因组(图9)。十一种染色体似乎没有重大染色体互染色体重排。例如,人类中的13个DC块由映射到TNI9和TNI11的交织的同义组组成,这些组假定是源自婚姻染色体染色体K(ANCK;图7)。两个染色体之间的直系同源分布(图8)证实它们是通过复制的ANCK得出的(图9)。在更复杂的情况下,TNI13与TNI5(ANCE)或TNI19(ANCF)系统地交织在一起,但是TNI5和TNI19从未将其交织在一起。三个染色体之间的直系同源分布(图8)意味着WGD后不久,TNI5和TNI19的重复伴侣产生了TNI13(图9)。总体模型与完整的WGD一致,因为它说明了所有四卫染色体。
几条证据支持此处介绍的历史重构。首先,四染色体的配对与重复基因在基因组中的独立得出的分布相符(图4B)。其次,三个最大染色体的以中心融合与细胞遗传学研究34一致,并且导致TNI1的融合的最新时间得到了细胞遗传学研究的支持,表明其在Takifugu35中的缺失。第三,硬骨染色体的单倍体数量为24(参考文献36-38),与由12个染色体组成的祖先基因组的WGD一致。
该分析还阐明了人类谱系中的基因组进化,人类染色体的交织模式描绘了人类基因组中祖先段的马赛克(图6和10)。结果与人类谱系中的几个已知重排病例一致并扩展。该模型正确地显示了在2q13.2-2q14.1中的两个祖先段(D2和D3;图6)之间在两个祖先段(d2和d3;图6)之间发生的两个灵长类动物染色体(参考文献39)的融合。它显示HSAXP和HSAXQ具有不同的起源(分别对应于ANCD和Anch),这与已知HSAXP在非层状哺乳动物中不存在的事实一致。该地图表明大多数HSAXQ和HSA5Q曾经是同一染色体的一部分,但是HSAXQ(XQ28)的尖端源自不同的祖先段,因此是以后的添加。一些人类染色体的一些成对显示出相似或相同的成分,表明它们是由同一祖先染色体裂变得出的,例如HSA13 – HSA21和HSA12 -HSA22。后一种情况与细胞遗传学研究一致,表明灵长类动物谱系中发生裂变41。
结果表明,塑造四元和人类基因组的进化力有主要差异(图10)。尽管11个染色体没有经历超过450 MYR的染色体交换,但只有一个人类染色体(HSA14)也没有受到干扰。HSA7是一个极端情况,有六个祖先染色体的贡献。差异的可能解释可能是人类基因组中可转座元素的大规模整合。可转座元件的存在可能会增加染色体断裂的总体频率,以及染色体断裂未能破坏基因的可能性(通过增加基因间隔的大小)。有趣的是,查看携带更多可替代元素(例如斑马鱼)的硬骨鱼是否显示出更高的染色体交换频率。