巨型肺鱼基因组阐明了脊椎动物征服土地

2025-06-22 10:02来源:本站

  没有使用统计方法来预先确定样本量。实验不是随机的,研究人员在实验和结果评估过程中并未对分配视而不见。

  从澳大利亚进口的澳大利亚lung鱼(N. Fosteri)获得了用于DNA和RNA分离的活检材料(Cites允许No。:PWS 2017-AU-000242)。由于性腺的未成熟状态,无法确定性别。相同的标本用于基因组测序(肌肉),HI-C文库的构造(脾脏)和大脑,性腺和肝脏的转录组测序。第二组读数是从肺鱼胚胎(胚胎阶段52,GenBank登录号SRR6297462–6297470)生成的36。胚胎是根据麦格理大学(Macquarie University)2009.039的许可证ARA繁殖和收集的。

  通过未来基因组学和下一组制备了高分子量(HMW)和超级HMW DNA,并使用纳米孔技术进行了测序(有关统计,请参见补充表1)。

  通过标准的GDNA分离方案分离出对Snap冻鱼肌肉组织(0.3 g)的基因组校正的GDNA。使用Westburg NGS DNA图书馆套件进行图书馆准备。通过Pippin Prep,具有400 bp DNA的大小,并在维也纳Bio Center NGS设施中删除了最终库。

  如前所述38,39生成HI -C库,并在补充方法中详细介绍了修改。在维也纳Bio Center NGS设施中对最终的HI-C库进行了测序(Illumina Nova-Seq SP; PE150)。

  使用Marvel Genome Assembler8组装了包括1.2 TB的900万读。我们首先将1%的读取与所有其他读物对齐。从这1%的静止对齐中,我们得出了有关读取中存在的重复元素的信息,并使用了传递转移以重复宣传组件中使用的所有读取。当给定读取的深度超过预期深度四倍时,区域被认为是重复的。鉴于1%与组件中的其他所有读数的比对,然后我们使用对齐方式将1%的重复注释转移到对齐读取中的各个位置。在这里,假设是,当读取a读取B中的A区(a,b)中的区域(c,d)中的读取b,并且对于a≤rb≤re≤b(其中rb和re re re re recretitive元素);这比可以使用对齐的B中的B中的一个区域映射,然后可以将其标记为重复。最终重复掩蔽轨道覆盖了1.2 TB的28.7%。

  然后,我们处理了全面的对准,并重复掩盖到位,产生了50亿个对准。根据这些对齐方式,我们以100 bp的分辨率得出了读取质量,从而突出了读取中低序的质量区域。使用读取中的结构弱点(嵌合断裂,高噪声区域和其他测序文物)的结构弱点(补充方法,扩展数据图10)。

  然后,修复的读数被用于新的一轮对齐,并重复掩盖了。对齐后,如源分布所包含的示例所示,进行默认的漫威组装管道进行(扩展数据图1)。

  有关当前的漫威源代码存储库,请参见https://github.com/schloi/marvel。有关示例执行脚本,请参见https://github.com/schloi/marvel/tree/master/examples。

  我们使用各种标准化使用了基于聚集的层次群集群的脚手架方法(扩展数据图1)。有关详细信息,请参见补充方法。

  我们通过选择最大的重叠群,它们之间的触点最少,每个重叠群都用作单个群集,从而创建了初始群集。然后,我们根据群集的唯一分配性添加了重叠群。接下来是分别脚手架簇,对脚手架过程中得出的近似接触图的目视检查以及错误分配的重叠群的返回到未分配的重叠群中。我们为所有群集创建了触点图,并根据信号在这些群集中合并或拆分群集。重复分配重叠群,脚手架,合并和拆分簇的过程,直到无法对簇进行更改(补充表15,用于比较染色体和支架DNA含量)。

  有关公共源代码存储库,请参见https://github.com/schloi/marvel/。

  Marvel组件和脚手架先前已被用于获得染色体尺度的Axolotl基因组组装,与先前发表的染色体规模的减数分裂脚架相比,该组合已得到验证,如前所述41可用。

  为了纠正基因组组装后剩余的误差(插入和/或缺失(Indels),碱基取代和小间隙),我们使用DNA序列和RNA-Seq分别读取了两步程序。简而言之,我们对相同的基因组DNA样品进行了测序,并产生了4,693,324,032个高质量读取对(2×150 bp)(30×覆盖率)。此外,我们使用了从头转录组组件中的RNA-Seq读取来纠正转录区域中的Indels但不是基础取代(补充方法,补充结果,扩展数据图10)。

  将RNA从大脑,脊髓,眼睛,肠道,性腺,肝脏,下巴,g,胸鳍,尾鳍,尾鳍,树干肌肉和幼虫鳍中分离出来。使用Nebnext Ulta II定向RNA文库制备试剂盒(新英格兰Biolabs),Illumina Truseq RNA样品制备试剂盒(Illumina)或词汇总RNA-Seq库Prep Kit V2(词汇)来构建库。配对端的测序通过Illumina平台进行,产生了约1,1.5亿原始读取。

  使用Trimmomatic V.0.3642和Rcorrater V.1.0.243进行过滤和校正原始读取,并使用从头和参考引导的方法组装。对于从头组装,仅使用牡蛎河协议(ORP)v.2.2.844处理源自poly(a)选择的RNA的读数。简而言之,使用Trinity V.2.8.4(K-MER = 25),Spades v.3.13.345(K-Mer = 55),Spades(K-Mer = 75)和Trans-Abyss v.2.0.146(K-Mer = 32)组装读数。然后使用ORP中实现的矫形器模块合并了四个不同的组件。使用核心脊椎动物基因和Gvolante WebServer50中的BUSCO v.349评估了从头组装的转录组的完整性。对于参考引导的组件,使用程序HISAT2 v.2.1.051(设置为3 MB)的程序HISAT2 v.2.1.051将所有读取均与N. vorsteri基因组(独立的样本)对齐。由Stringtie v.1.3.652解析了所得的映射文件,从每个对齐的样本重建的成绩单被合并在单个共识.GTF文件中。

  使用repotmasker(v.4.0.7)预测Neoceratodus forsteri重复序列,其中默认可转移元素DFAM数据库和一个使用Repotmodeler(v.1.0.10)构建的从头重复库,包括connement(v.1.0.8),repotscout(repotscout(v.1.0.5)和rmblast(v.1.0.5)和rmblast(v.1.0.5)和rmblast(v.6.6.6)。使用pastec(https://urgi.versailles.inra.fr/tools/)和deepTe53分析了未由retopmodeler分类的转座元素。使用相同的方法预测了墨西哥曲霉的重复序列(AMEXG_V3.0.0,https://www.axolotl-omics.org/)。Anolis carolinensis(GenBank登录GCA_000090745.2),Xenopus tropicalis(GCA_000004195.4),Rhinatrema bivittatum(GCA_9010010011135.1),Latimeria Chalumnae(GCA_901001135.1),rhinatrema bivittatum(gca_901001135.1),rhinatrema bivittatum(gca_901001135.1)的重复序列,gca_901001135.1(GCA_000242695.1),Danio Rerio(GCA_000002035.4)和Amblyraja radiata(GCF_010909815.1))使用DFAM TE工具容器(https://github.com/github.com/dfam-consortium-consortium/tetetools)(包括repoymosmers)(V..Modelerser)(V.Modelerser)(v.cof_010909815.1))(vcof_010909815.1)。(v.4.1.0)。为了进一步检查剩余的基因间序列,我们使用基因组硬掩蔽上的相同工作流程再次预测了重复序列,该序列具有重复效果的重复序列。

  重复共识与其副本之间的kimura替代水平是使用bycledmasker中的实用程序脚本ccaldiverGenceFromalign.pl计算的。使用RCCalcDiverGenceFromalign.pl的Divsum输出,使用R脚本NF_ALL_AGE_PLOT.R和NF_AM_RB_AGE_PLOTS.R生成重复景观图。使用FACTOEXTRA软件包(V.1.0.6)在R(v.3.6)中对重复元素组成的主成分分析进行。从预测的库中计算重复元件组成(正弦,线,DNA,LTR和未知)。与共识序列相比,通过80/80规则(等于或超过80 bp,等于或大于80%的身份)过滤重复元件副本。从参考文献中获得其他脊椎动物的重复元件组成。54。

  通过计算每类重复元件的覆盖范围(以BP)计算基因的覆盖率(按基因长度归一化),从而检查了基因内的重复序列组成(按长度分组)。我们检查了LTR家族在基因区域的富集。所有计算和可视化均总结在jupyter笔记本文件te_general_analysis.ipynb中。所有Python脚本均在Python≥3.7上运行,并使用包装gffutils(V.0.10.1)(https://github.com/daler/gffutils)来操作大基因和重复元素注释文件的大基因。使用Plotly Python API(https://plot.ly)生成图。

  内含子位置由Genemotools计算(V.1.5.9)。使用python script te_cnt_class.py,通过考虑的基因特征(补充表17)(补充表17)(补充表17)(补充表17)(补充表17)(补充表17)(补充表17)将重复元素的覆盖范围(例如线CR1)的总和进行标准化。

  在性腺,脑和肝多(A)-RNA数据上用Tetools55评估转座元件表达。由于肺鱼基因组的大尺寸,使用了所有可转座元件的10%的随机子集。通过转座 - 元素 - 家庭共识长度(计数×106/共识长度)和库大小,将转座元素家庭计数通过归一化。针对转座元素家庭拷贝数绘制了归一化计数。

  通过结合转录本和基于同源的证据来预测蛋白质编码基因。对于转录证据,使用GMAPL v.2019-05-1256将组装的转录本(如“转录组组装”中描述)映射到组件,并使用PASA管道V.2.2.2.357推断基因结构。使用整个RNA-seq数据集(如“转录组组件”中描述的)和Kallisto V.0.46.158中实现的伪分析算法测量每个转录物的表达。为了获得同源证据,我们从Uniprotkb/SwissProt数据库(Uniprotkb/Swiss-Prot 2020_03)中收集了手动策划的蛋白质,59和Callorhinchus Milii的蛋白质序列,L。Chalumnae,L。Oculatus,L。Oculatus和emembl(Httppicb)(HTTP)。(https://www.ncbi.nlm.nih.gov/genome),并使用Exonenate v.2.260将它们对齐将其对准重复遮盖的组件。然后通过优先考虑前者的优先级(基于同源的预测基因在使用重建的转录本进行预测的基因时),从而将基于转录的证据和基于同源的证据结合在一起。然后通过两轮“ PASA比较”处理组合的基因集,以添加未翻译区域(UTR)注释和模型,以替代剪接的同工型。通过以迭代方式应用三个进一步的质量过滤步骤来消除低质量的基因模型:(1)仅在发现多种外观基因的外显子的相似性时保留单例基因(与快速v.36.3.8g poffage copts and dection cot-value cutsient and dectue and dectue and dectue and dectue and Sifor cobs and Sifor and Sifor cobs and cobs and cobs cot cobs and jects and cobs and side cobs的相似之处相似(识别出相似之处)。(2)当重复序列涵盖> 50%(单例基因)和> 90%(多出现基因)时,去除相互重复元素的基因。(3)删除具有内部终止密码子的基因。使用核心脊椎动物基因和椎骨基因(椎骨_ODB9数据库)评估了预测蛋白质编码基因集的完整性。 在Gvolante Web服务器中。

  为了注释肺鱼HOX簇,首先使用带有脊椎动物直系同源物作为查询的BLAST鉴定HOX基因(补充方法)。

  使用trnascan-s.e对NCRNA基因进行注释。V.2.0.362和地狱v.1.1.263。同样的过程应用于其他九种焦点物种的基因组。对于十种物种中的每一个,使用Miranda V.3.365 v.3.365,使用相应的microRNA集(从Mirbase V.2264数据库获得)来预测3'UTRS上的MicroRNA目标位点。补充信息中提供了更多详细信息。

  用于系统发育树的十种物种的基因组组件的掩盖版本(图1)用于构建与人基因组作为参考的全基因组比对(十字全基因组比对)。简而言之,使用Lastz V.1.03.7366构建了每个成对对齐,并使用UCSC基因组浏览器工具进行了进一步处理67。使用程序Multiz v.11.2和hover.v.3.068以.maf格式输入.maf格式的9个成对对齐,从而生成了多个对齐。

  在PhastCons69中实现的系统发育隐藏模型(Phylo-HMM)(以Rho估计模式运行)用于预测十个物种的整个基因组比对中一致的一致的保守基因组元素。使用Thylofit69与四倍变性位点的一般可逆替代模型计算中性模型。Phastcons检测到的原始保守的非编码元素(CNE)在距离时合并 <10 bp, and subsequently CNEs <50 bp were removed. Protein-coding CNEs and those intersecting ncRNA genes, pseudogenes, retrotransposed elements and antisense genes (annotated in the human genome) were removed.

  The final filtered set of CNEs was used to investigate expansion of intergenic spaces. We compared the distance of nonexonic elements that are conserved in lungfish and three tetrapods (human, chicken and axolotl). To obtain informative CNE pairs, we selected those CNEs that: (1) were present in all four genomes; (2) were located in intergenic space; (3) were located in the same contig or chromosome in each species; and (4) did not have a gene in between them. The remaining set of 223 CNE pairs were used to calculate intergenic distance and region-specific expansion of the lungfish genome (Supplementary Table 18).

  The program phyloP was used to test each CNE for lineage-specific accelerated evolution69,70 in the lungfish branch. A likelihood ratio test to compute the P value of acceleration with respect to a neutral model of evolution for each of the conserved elements in the alignment was used. CNEs showing false-discovery-rate (FDR)-adjusted P values < 0.05 were considered significantly accelerated. The accelerated CNEs were checked for overlap with a set of 1,978 experimentally validated human and mouse noncoding fragments with gene enhancer activity (data from ‘VISTA Enhancer Browser’26) (Supplementary Table 19).

  Amphioxus annotation15 was mapped onto the lungfish assembly using TBLASTN. The CLG identity of amphioxus genes was used to determine CLG composition of lungfish chromosomal scaffolds. Dot plots were done using scripts available at https://bitbucket.org/viemet/public/src/master/CLG/.

  Intron size was compared between lungfish, axolotl, human and fugu for one-to-one orthologues. Intron sizes of each gene were calculated from the .gff files of each genome. Genes without a start codon were removed to avoid the pseudo-intron order. The intron size was compared first in absolute bp, then in the value normalized by each genome size (lungfish, 44,032 Mb; axolotl, 32,768 Mb; human, 3,000 Mb; and fugu, 400 Mb).

  Protein sequences of A. carolinensis, C. milii, D. rerio, Gallus gallus, Homo sapiens, L. chalumnae and L. oculatus were downloaded from Ensembl (Lepisosteus_oculatus), and of Xenopus laevis from NCBI (https://www.ncbi.nlm.nih.gov/genome). Sequences of A. mexicanum were taken from ref. 41. In cases of alternative splicing, we kept the longest sequence for the gene. All proteins were pooled together as the query and database for an all-versus-all BLASTP. From the result, we determined an H-score between each two proteins as representative of the distance for sequence similarity71, and launched a clustering using Hcluster_sg72. Finally, for each cluster, a gene tree was built using TreeBeST and orthology between genes was assigned.

  The phylogeny was inferred using the set of 697 orthologous proteins. Individual loci were filtered with PREQUAL73, aligned with MAFFT ginsi74 and highly incomplete positions (>80%) trimmed with BMGE75. Orthology was ensured by manual inspection of maximum likelihood gene trees (IQ-TREE) and alignments (MAFFT ginsi) for loci showing high branch-length disparity, and five individual sequences were removed. Loci were concatenated into a final matrix containing 10 taxa and 697 loci, totalling 383,894 aligned amino acid positions, of which 208,588 (54%) were variable. Phylogeny was inferred using PhyloBayes MPI v.1.776 under the site-heterogeneous CAT-GTR model, shown to avoid phylogenetic artefacts when reconstructing basal sarcopterygian relationships4. Two independent Markov chain Monte Carlo chains were run until convergence (>4,000个周期),使用门载体的内置功能评估了后验(MaxDiff = 0,Meandiff = 0,对于所有参数,在将前25%的循环丢弃为燃烧后的所有参数)。将燃烧后树汇总到一棵完全分辨的共识树中,所有两部分的后验概率为1。

  Maffilter v.1.3.077处理了十个物种的整个基因组比对,以保持所有物种中存在的比对块> 300 bp。然后将过滤的非编码块加入并以.phylip格式导出。使用Trimal v.1.2和选项为“ -automated1”,将对齐区域较差。最终的数据集(99,601个对齐的核苷酸)用于在GTRGAMMA模型下用RAXML v.8.2.4重建系统发育,并重复1,000个Bootstrap Replicates。

  基因组大小的演变是使用Phytools R Package78中的“ ​​fastanc”功能的最大似然模型的。我们使用了一个时间校准的树,该树代表了从参考的系统分类树获得的所有主要颚骨谱系。5;年龄是从100个独立的基因杰克刀(Phylobayes v.4.179)中推断出的100个独立基因杰克刀在100个独立的基因校准的树中的全基因组估计值,该估计是在逻辑正态自相关时钟模型下,具有16个交叉验证化石,作为统一的校准,具有柔软的界限,Cat-Grtritation Model and Catch-Grtritation Model and Brand-Prandepheath-ever-prand-Phert-Phert-Phert-Phert-Prand-Prand-Prand-Prand-Prand。从参考文献中获得了基因组大小数据(单倍体DNA含量或C值)。80。基因组大小的估计值是平均每个物种(如果有几种),在六种物种中,基因组大小近似为同一属内密切相关物种的平均水平。对于Neoceratodus,使用基于K-MER的估计(43 GB; C值= 43.97 pg)。祖先基因组大小用于计算选定分支的基因组演化速率。

  通过轻松的分子时钟(带自相关率)在PAML软件包v.4.9H81中实现,推断出差异时间。总共将六个化石校准用作均匀的培训82。有关更多详细信息,请参见补充方法。

  CAFE83用于推断基因出生和死亡率(Lambda),并在重要的动态下检索基因家族。作为输入,我们从McMctree的输出以及HCluster_SG的基因簇的结果和基因簇的结果中取了种类树。每个基因簇被视为一个基因家族。我们以咖啡厅为基础,在整个树上都设置了全球兰巴达的模型。为了象征每个基因家族,我们以最长的成员为代表,并用Diamond84对Swissprot和NR数据库进行了攻击。两者的最佳打击都被保留了。

  为了比较所有研究物种中嗅觉受体,味道受体和肺表面活性剂蛋白的曲目,我们遵循每个物种相同的过程。首先,我们从瑞士 - 普罗特和NR数据库中收集了嗅觉受体,味道受体和肺表面活性剂蛋白的序列。对于NR数据库的序列,我们仅保留具有标识符的人以“ NP_”开头,而RefSeq Eokaryotic Curation Group支持了标识符。其次,我们使用服务器模型中的Exonare(Maxintron设置为600万,用于肺鱼和Axolotl)将查询设置映射到每个基因组。将对齐时间扩展到可能的情况下启动和停止密码子。第三,我们对所有已检索到NR数据库的序列进行了验证,并以最佳打击的那些不是嗅觉受体,味觉受体或肺表面活性剂的序列去除。最终结果序列的一致性覆盖率从32%到100%(第一个四分位数为95%),身份百分比从17%到100(第一个四分位数为62%)到其查询。

  在先前的研究85之后,我们将最终序列分为三类,基于它们与查询的一致性:(1)伪纪序,具有过早的终止密码子或frameshift的序列;(2)截短的基因,没有过早停止密码子和移架的序列,但开放式阅读框(ORF)(启动或停止密码子缺失);(3)完整的基因,具有完整ORF的序列。

  计算了两个模型。模型1用于查找在肺鱼中阳性选择的基因,模型2用于通常在四足动物和肺鱼中选择的基因。包括基因组包括本研究的N. forsteri和墨西哥抗体,以及Ensembl Genomes D. rerio(danio_rerio.grcz11),carolinensis(anolis_carolinensis.anocar2.0)。(latimeria_chalumnae.latcha1),C。Milii(Callorhinchus_milii.callorhinchus_milii-6.1.3),X.Tropicalis(gcf_0016663975.1_xenopus_xenopus_laevis_v2)(homo_sapiens.grch38)。X. Tropicalis基因组(GCF_001663975.1_XENOPUS_LAEVIS_V2)从NCBI下载。下载了来自所有物种的蛋白质和cDNA文件。为了鉴定直系同源蛋白,使用inonparanoid86(默认设置)将所有蛋白质序列与肺鱼进行比较。为了匹配蛋白质和cDNA,通过TBLASTN搜索序列,仅保留100%的命中。使用PAL2Nal V.1487构建了蛋白质和cDNA序列对的密码子比对。通过muscle88(选件:-fastaout)对齐产生的序列,而cDNA的比对位置较差,而cDNA的不同区域则被gblocks v.0.91b89(选项:-b4 10 -b4 10 -b5 n -b3 5 -t-t = c)消除。内部脚本用于将gblocks输出转换为PAML格式。

  作为一种系统发育树,我们从McMctree中占据了种类树,作为用于检测用C. milii作为外组的阳性选择的输入。对于通过最大可能性进行系统发育分析,“树探索环境”(ETE3)Toolkit90(通过使用预配置的进化模型来自动化Code​​ml和SLR分析)。为了在肺鱼中检测基因在阳性选择下的基因,我们使用可能性比测试(FDR≤0.05)将分支特异性的BSA1(中性)与BSA模型(阳性选择)进行了比较。为了检测在阳性选择下的位点,计算了每个站点的所有四个类别的天真经验贝叶斯概率。概率为2A类的概率> 0.95(标记分支的正选择,在休息中保守)或2b(在标记分支中进行阳性选择,在休息中放松)。计算了两个模型。在模型1中,仅标记了肺鱼的分支。在模型2中,所有四足动物和肺鱼都标记为阳性选择。

  使用IPA(Qiagen,www.qiagenbioinformatics.com/products/ingenuity-pathway-analysis)和David(https://david.ncifcrf.gov/home.jsp)使用IPA进行功能聚类。

  如先前所述的36,91,对原位杂交进行了修改(补充方法)。

  HOX基因RNA-seq分析在52期肺鱼幼虫RNA-seq数据集(SRR6297462 – SRR6297470)39(补充方法)上进行。

  Blastn搜索了三百三十非冗余的Vista增强剂元素26,92对X. Laevis,X。tropicalis,Tropicalis,Nanorana Parkeri,Nanorana Parkeri,Axolotl,Axolotl,Reedfish,Reedfish,Sterlet,Gar,Gar,Elephant Shark,Coelephant Shark,Coelacanth(Latcha1)(Latcha1)和Neoceratodus GENOMES确定补充方法(补充方法)。

  有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

左文资讯声明:未经许可,不得转载。