系统基因学和被子植物的兴起

2025-06-23 18:54来源:本站

  作为皇家植物园(Kew50)的植物和真菌树(Paftol)项目(Paftol)项目的一部分,我们组装了一个核基因组数据集,该数据集由新生成的数据和来自公共存储库的数据组成。我们的目标是采样至少所有被子植物属的50%,并根据已发表的研究以系统发育代表性的方式选择属。为了避免在树上过度失衡,我们只包括一个样本,每个属最多包括三种。当有几个样品适合同一物种时,我们选择了数据量最多的样品,即更多的基因和更高的基因长度。对于有几种可用物种的属,选择的标准主要是系统发育表示,然后是数据量。选择每个体育馆家族中的一种种类以形成群体,共有12个样本。

  在建立的实验室协议50,56之后,我们使用Universal Agiosperms353探针SET8生成了目标序列序列捕获7,561个样品的数据。我们通过2,054种的公开数据补充了数据集,这些数据来自一千个工厂转录组计划9(OneKP; 564个样本),注释和未注释的基因组(151个样本)(151个样本)(151个样本)(序列)和序列读取存档(SRA; SRA; SRA; 1,339个样本; 1,339个样本),例如转录组,请参见Ref Ref Refs。参考。为了标准化分类法和命名法,所有物种名称和家庭都与血管植物的世界清单2和APG IV的订单进行协调18。

  序列恢复以两种方式进行,具体取决于输入数据的类型。为了基于原始读取恢复,即Angiosperms353数据或从SRA挖掘的数据,我们使用了Hybpiper v.1.31(参考文献61),嵌入了定制管道中(https://github.com/bithub.com/baileyp1/baileyp1/phyologenomicspipeline)。使用Trimmomatic62对原始读取进行修剪,以删除低质量的碱基和短序列。在Hybpiper中,最初使用BLASTN和氨基酸目标文件作为参考(补充文件1)将读取最初被归入基因中。使用Spades63将单个基因从头组装而成,并通过连接和修剪基因重叠群以使用Exonerate 64进行了完善。对于有旁产科警告的基因,仅使用了Hybpiper确定的推定直系同源物。如下所述,排除了每个物种在多种聚合融合框架下进行的基因对物种树的推断具有可忽略的影响,如下所述。相反,每个物种包含几份副本将使我们的研究在计算上棘手。使用参考文献中描述的自定义脚本回收了来自组装基因组和ONEKP转录组的基因序列。50。简短地,使用BLASTN搜索了组装的序列,以相对于上面提到的目标文件,选择每个基因的最佳匹配并将其修剪为爆炸击中。对于代表各自家庭唯一登录的几个Agiosperms 353个样品(ixonanthes reticulata,mitrastemon matudae和tetracarpaea tasmannica),从Hybpiper中恢复不良(即,在5千倍(Kb)(KB)中,以下是contig totig longes的总数),以下是Rectake counture to Recounce。50,使用较少严格的恢复阈值。补充图9中给出了平均每个订单的回收率。

  为了分析数据集,我们设计了一种分裂和争议方法。首先,我们计算了一棵骨干树,每个家族最多采样了五种物种,以测试单一的订单并严格探索深层关系。我们使用骨干树来识别多个序列一致性的组(订单或订单组),目的是在密切相关的分类单元之间产生精致的亚调整。随后,将子对准合并为全球基因比对,并使用各自的基因树从这些基因树中推断出全球基因树作为约束。最后,我们使用估计的基因树推断了一棵多种凝聚树。补充图1总结了推理管道。

  选择了主链的样品,以代表每个家庭中的冠状节点和最深的分歧。对于有五个或更少样本(279个家庭)的家庭,包括所有样品。对于那些超过五个样本(156)的人,我们选择了每个连续分化进化枝的最佳样本(大多数基因和最长的序列)(基于我们自己数据的已发表的系统发育证据和初步分析),直到包括五个样本。为了评估样品选择可能影响骨干树拓扑的程度,我们推断了20个主链重复,随机为每个家庭选择了五个样品的五个样品(就基因数量和恢复的基因长度而言,最佳样本中的50%最佳样本之一)。然后,我们将树木汇总到家庭水平,并计算出鲁滨逊 - 骨干和20个重复之间的距离(补充图10)。

  骨干的系统发育重建涉及多达两个基因比对和基因树估计的迭代,并具有中间的较高拆除步骤。接下来是多种聚集框架中的物种树推断。在第一次迭代中,使用MAFFT v.7.480(参考文献65)对给定基因的所有序列(使用FFNSI方法,即 - retree 2-墨西哥酯1000),并根据调整序列的方向( - adjustDirection)。在删除了具有超过90%的植物性数据丢失数据的位点66之后,使用iq-Tree v.2.2.2.2.2.0-beta67估算了基因树,在分析中保持相同的序列( - keep-nident),将替换为GTR+g并估计分支支撑,并具有1,000 Urtrafast Bootstrap Replacates 68。在第二次迭代之前,我们使用treeshrink69在“全生物”模式下鉴定了长分支异常值,并在树木的质心上重新启动。基因比对的第二次迭代,除去离群序列后,对具有离群值的基因进行了基因估计。随后,将所得的基因树汇总到种类树中,使用Astral III v.5.7.3,这是一种基于四重奏的物种树估计方法统计上与多种二叶子合并的Model70一致的统计学,实现了完整的注释选项(-t 2),使用折叠的Nodes bootstrap utife 7 contuce 7 collick(-t 2),启用了较差的node boottrap utife 7 nek in in in 7%)。

  对于订单级别的子对准,大多数订单都按照对骨架描述的相同方法进行分析。在某些情况下,如果较小的订单(少于50个样品)与较大的订单一起在主链中形成单系组,则将分析它们。These groups are: (1) Commelinales with Zingiberales, (2) Dioscoreales with Pandanales, (3) Fagales with Fabales, (4) Columelliales, Dipsacales, Escalloniales and Paracryphiales with Apiales, (5) all magnoliids (Canellales, Laurales, Magnoliales and Piperales) and (6) all gymnosperms together(Cycadales,Ephedrals,Gnetales,Ginkgoales和Pinales)。相反,在主链中以非单属的订单分为单系亚组,如下所示:(1)心脏端翅曲霉和stemonuraceae与其他含水菌的其他分离,(2)dasypogonaceae与其他Arecales,(3)与collumelliac,(3)collumelliac,incee extreEs(3)4个分开的(3)4)与草种的其他草原分开的腺泡和(5)Huaceae。在补充表1中提供了订单级子组合中使用的样品的分组。非常小的组,包括一个或两个样品(称为孤儿序列),不包括在子对齐中,并直接将其直接纳入全局分析中。

  我们通过合并订单级别的亚调整(去除Gappy站点之前)并使用MAFFT65添加孤儿不一致的序列,从而产生了全局基因对齐,最多100次改进。这种方法可以在订单级别的子对准之间进行对齐,而不会破坏子对准中的结构。最终的基因比对通过删除gappy网站进行清洁。与AMAS72(补充表5)产生了对齐的摘要,并在补充图11中列出了每个订单的平均占用率。

  然后,我们估计了FastTree v.2.1.10(参考73)中的基因树,将模型设置为Gtr+G,使用伪kents避免片段序列的偏见并增加搜索范围(-spr 4,-spr 4,-mlacc 2和-slownni)。我们使用了从主链分析中的基因树来限制各个全球基因树的拓扑。为了避免从主链分析到全局分析的传播误差,我们在将它们应用于约束之前从骨干基因树中删除了潜在的误导信号。首先,将引导程序值低于80%的分支崩溃,以避免执行不良支持的关系。其次,远离其余订单的尖端被算法去除(但保留在全球基因比对中)。一旦估算了全球基因树,使用treeshrink除去了离群的长分支,并且使用Astral-MP v.5.15.5(参考文献74),使用修剪的基因树来计算全球物种树,在支撑较差(即在Shimodaira-hasegawa – Hasegawa测试中支持低于10%的人)。

  差异时间通过treepl75,76的惩罚可能性估计。对于此量表的数据集,此方法在计算上是有效的,通常估计相似的差异时间与更多计算密集的贝叶斯分析。基于Sortadate77选择的前25个基因的串联比对,将融合物种树拓扑用作iQ-Tree估计的分子分支长度的输入树。通过根据与物种树的一致分两分的数量对相应的基因树进行排名来选择基因。我们之所以选择基因,是因为高基因树冲突导致差异时间估计为78,79。

  化石校准基于参考文献中描述的血管焦化石校准数据集。5。我们使用了此数据集的更新版本,称为血管焦v.1.1(补充表6和补充文件2)。在该数据集中将化石校准分配给我们的树拓扑,从而在内部节点上进行了200个独特的最低年龄校准(补充表7和补充图12)。在被子植物冠节点上使用了154或247 MA的最大约束。这两个值分别代表了对被子植物牙冠节点的最大年龄5,28的年轻和老年约束。然而,这两个值还是比最古老的冠状冠状化石大得多,约为127.2 MA(参考文献80)。两种最大约束,结合所有最小年龄限制,都用于对物种树进行时间校准。根据根节点处的最大约束,这些过时的系统发育树被称为幼树和旧树。对于幼树和旧树,使用0.1、1、10或100的平滑值在Treepl中进行了四次分析。这些不同的平滑值假设分支替代率变化中的高至低水平。

  以1 MYR的间隔从过时的系统发育树的根系到现在,我们计算了一个假设树中有多少个被子植物谱系的谱系,该谱系对现存的被子植物物种多样性的100%进行了采样。我们用它来量化我们的系统发育树通过时间(补充方法)纳入的现有谱系的比例。为此,我们模拟了过时的树木上的未采样多样性:未采样属的物种多样性被模拟为恒定的出生 - 天生的分支过程,该过程起源于其各自家族的皇冠组,而在采样的属中,未采样的物种多样性模拟为恒定的成绩出生的出生生育 - 杜松的分支分支过程。使用血管植物的世界清单确定每个模拟分支过程的现有多样性2。然后,在每个时间间隔,我们计算了过时的系统发育树中的谱系数量与假设完全采样的树之间的比例差异。

  用替代平滑值估计的过时的树非常相似(扩展数据图2和补充图5),因此仅使用估计的日期树进行多样化的速率估计值,平滑值为10。相比之下,年轻和老树的年龄估计明显不同。因此,对这两种日期的树进行了多元化率估计。在每种情况下,过时的树木都被修剪,以使每个属最多一个尖端。

  通过生成LTT图作为整体和每个顺序的热图,对多样化率进行了初步分析,并以5 MyR间隔代表每个LTT曲线的陡度。为了计算曲线的陡度,我们计算了对数校正的谱系累积总和与应用Tukey的中位平滑平滑之间的运行差,以避免过多的噪声。对于订单图,累积总和从第一个分支点开始,即订单冠节点。

  在所有被子植物中,还明确估计了时间依赖性的多元化参数(物种和灭绝率)。这些分析是在Revbayes中使用dnepisodicbirthweath函数进行的。81。估计费率的最小时间窗口为5 mA。但是,较大的窗户被用于树的根部,因此每个时间窗口中至少有50个分支事件。使用了三种不同的模型:在所有窗口中的形成率和灭绝率相等;窗户之间的物种形成率可变,但灭绝率相等;窗户之间的物种形成率相等,但灭绝率的变化速率。贝叶斯因子比较用于比较模型,并为可变速率模型提供了强有力的支持,但无法区分两个可变速率模型(补充信息),这表明它们可能是来自物种树的同一套一致集合。在随后的讨论中,我们主要是指可变形成率模型的结果(有关辩护,请参见补充信息),尽管两个可变率模型估计了通过时间(补充信息)的净多样化率的相似模式。

  在BAMM83和REVBAYES中进行了谱系特异性的多元化率估计。对于BAMM中的分析,使用R软件包Bammtools84的SetBammpriors函数来定义合适的先验。对设置为10或100的预期偏移数的先验进行了不同的分析集。这些不同的先前设置对参数估计的影响最小。为每个采样家族指定了进化枝特异性的采样部分,并使用了1个骨干样本分数为1。因此,我们说明了家庭内部不完整的采样,以及对树的骨干的全面采样。对于RevBayes中的分析,使用了DNCDBDP函数,并将速率偏移总数设置为10或100。该函数不能指定进化枝特异性的采样部分。因此,将采样分数设置为1,含义是估计因未成外的多样性而不准确。

  仿真基于多种聚合过程。每种树木都包含100个尖端,并以时间依赖的物种和灭绝速率模拟为出生的分支过程。在实验1中,灭绝率始终为0。物种速率为0.75种MYR -1,有时超过6 mA,物种速率为0.075种MYR -1,小于2 MA的物种率为0.75种MYR -1。在实验2中,净多样化速率与实验1相同。但是,在这种情况下,变为灭绝率导致净多样化率的变化。因此,对于所有时间间隔,物种速率为0.75种MYR -1。有时超过6 ma的灭绝率为0种MYR -1,在6至2 mA之间,灭绝率为0.675种MYR -1,有时灭绝率为0种MYR -1。

  具有灭绝谱系的物种树具有额外的复杂性:首先,与物种率的变化相比,灭绝率的变化对物种树中现存谱系的持续时间的直接影响较小(补充信息);其次,灭绝的效果有时会降低到现在。这会导致物种树中较短的树枝,导致所谓的“现在的拉力”。因此,我们进行了与实验2相似的进一步分析,但目前的灭绝率没有下降。这提供了对“当前的拉力”对基因树冲突和多样化率的推论以及这些变量之间的关系的影响。

  根据多物种合并过程,沿着出生的分支过程模拟了一百个基因树。对于大多数实验,有效的人口规模为5,000。在另外一个实验中,这与实验1相同,有效的人口规模为50,000。对于每个模拟数据集,模拟基因树与物种树表现出冲突的拓扑的程度都是在时间上绘制的(补充信息)。这种能够表征由于谱系分类不完全的分类与物种树形成的变化和物种树的灭绝率引起的基因树冲突之间的关系。

  可以提供更多方法,结果和讨论(补充信息;补充图13-24和补充表8)。

  这里描述的研究是由高度包容性的,大规模的国际合作的结果,该合作积极鼓励了来自世界各地的许多人的参与。作者身份包括许多国籍,在性别,职业阶段和职业道路上是代表性的。来自48个国家的共有163种草药提供了与研究中使用的样品相关的样品和/或房屋标志券(请参阅确认)。这些样本起源于许多国家,包括土著土地。我们认识到所有自然历史收藏的基础的复杂历史以及我们在承认它们时面临的全球挑战。我们优先考虑最近收集的样本,结果,大多数(85%)的日期(估计为1970年)。为了分享我们的研究的好处,从2019年开始,在本工作提交此工作之前,已经公开提供了通过此协作产生的所有数据(请参阅数据可用性)。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。