2025-06-25 02:58来源:本站
MCP的初始隐藏模型(HMM)是由已发布的NCLDV MCP的多个序列比对构建的,随后根据提取的元基因组NCLDV MCP序列更新。我们筛选了大约5.37亿个蛋白质,在约4510万个重叠群上编码,长度大于5 kb,在IMG/M43(2018年6月)的8,535个公共元基因组中可用,用于对NCLDV MCP进行编码的重叠群,该重叠群使用HMMSearch版本进行了hmmsearch的版本(v.3.1b2,httpp:b2,http equi fortive and portution portutiation fortim portution portivation)NCLDV MCP(https://bitbucket.org/berkeleylab/mtg-gv-peack/)的一组模型和1×10-10的E-Value截止值。然后以99%的序列相似性与CD-HIT45聚集在77,701个重叠群上发现的1,003,222个蛋白质,以去除几乎相同和相同的蛋白质。这导致了524,161个簇和单例。群集代表使用具有默认设置和-diamond Flag46,47的矫形器(v.2.27)来推断蛋白质家族。使用MAFFT48(V.7.294b)建造了多个序列比对,用于蛋白质家族,其中包括至少10个成员,并使用HMMBuild获得了相应的HMM模型(v.3.1b2,http://hmmer.org/)。这导致了总共7,182个HMM,可以检测NCDLV蛋白,然后对IMG/M43中的所有公共基因组进行了测试(2018年6月)。在超过10个参考基因组中,在1×10-10的电子价值临界值高于1×10-10的模型中被删除了。然后将所得的5,064款模型用于NCLDV元基因组重叠群的靶向套筒。
从IMG/M数据库43(2018年6月)收集了一组细菌,古细菌,真核生物和非NCLDV病毒的代表性基因组,并与NCBI GenBank从NCBI GenBank下载的NCBI基因组组装的NCLDV基因组合并在一起,以确定NCLDV-跨V----------------使用Prodigal49(v.2.6.3; 2016年2月)以“常规”模式(默认参数)和激活的选件“ -n”激活了这些基因组(V.2.6.3; 2016年2月)预测这些基因组的基因。对于小于100 kb的基因组,按照工具文档的建议,使用了“ -p meta”选项来应用预定的培训文件,而不是从基因组中训练基因预测因子。接下来,根据置信度≥90且评分≥50的基因,为每个基因组计算了一组不同的指标。These included gene density (number of genes predicted on average per 10 kb of genome), coding density (number of bp predicted as part of a coding sequence per 10 kb of genome), spacer length (average length of the spacer between the predicted ribosomal binding site (RBS)), predicted start codon for genes in which a putative RBS was detected and RBS motif profile (the proportion of each type of RBS predicted in基因组,见下文)。
对于RBS基概况,使用浪子的完整基曲线扫描选项预测基序(请参见上文)。值得注意的是,其中一些基序可能不代表真正的RBS,而是其他保守的基序(包括与转录相关的基序)在这些不同基因组中的起始密码子上游发现。这些图案分为11个类别,如下所示:(1)对于浪子没有预测RB的情况,“无”;(2)“ SD_CANONICAL”,用于规范Aggagg Shine -Dalgarno序列的不同变化(例如,Aggag,Agxag,Gagga,以及由浪子标识为“ 3base_5bmm”或“ 4base_6Bmm”的图案);(3)通常从细胞基因组预测的基序变体的“ SD_BacteroidEtetes”(Ta {2,5} t {0,1}:t随后是2-5 AS,有时为terminal T);(4)针对包括“ GA”模式但与规范的Shine -Dalgarno序列不同的“其他_GA”,例如Gaggga,通常在几种古细菌和细菌基因组中鉴定出来;(5)对于通常在NCLDV中检测到的基序的变体的“ tatata_3.6”,即3-6 bp的基序,带有交替的TS和AS(TAT,ATAT,TATA,TATA,TATAT等);(6)仅在以前的组中尚未包含的AAAAA的“仅”图案,例如,在细菌群中最常发现;(7)针对仅由先前组中尚未包含的TS组成的图案的“唯一”,例如,在某些古细菌基因组中以低频率发现的TTTTT;(8)对于以前的组中尚未包含两个连续的基序的“ Doublea”,例如AAAAC,最常在细菌群中发现的候选门(CPR)组中的细菌和细菌;(9)对于先前组中尚未包含两个连续TS的基序的“ Doublet”,例如,在植物,细菌植物和NCLDV中以低频的tictt发现;(10)对于没有任何AS的主题的“ NOA”,例如,在某些古细胞基因组中发现的TCTCG,例如TCTCG;(11) 对于不适合任何类别的主题的“其他”。
然后,通过分层聚类(R函数'Hclust')根据每种基序类型的频率分组代表性的基因组。这使得根据分类法(在王国或领域等级)和基序概况(扩展数据图2),可以根据分类法(图2)划定12个基因组组。然后,基于14个特征(11个图案,基因密度,编码密度和平均间隔长度)建立两种类型的随机索分类器,请参见上文):一种:一个类别是二进制的类别(也就是“ Virus_ncldv vers'virus_ncldv'ver's其他),以及一个基于基因组的类别,是基于基因组的类别。(非pandoraviruses)”,“动物和植物”,“生物和真菌”,“典型细菌和古细菌”,“类细菌类细菌般”,“细菌(CPR)”,“非典型细菌”,“异型古细菌”,“质粒”和“其他病毒”和“其他病毒”,包括Pandoviruass)。对整个基因组以及沿基因组随机选择的20 kb和10 kb的片段评估了14个特征。这些随机片段用于在输入序列上训练分类器,与元基因组组件更可比,这通常代表了几个Kb的短基因组片段。对于这些片段,浪子是带有“ -p meta”选项和默认参数的50,也就是说,没有完整的主题扫描,因为这些序列通常太短了,无法识别从头RBS主题。该分析中未包括动物和植物基因组,因为这些分析不太可能从宏基因组中组装出来。所有分类器均使用R库Randomforest构建,并包括2,000棵树,否则为默认参数,进行了10倍的交叉验证以评估分类器精度。NCLDV来源的概率“概率”被用作评估分类器的预测评分,然后将其应用于元基因组组件。由于输入数据集很容易偏向细菌和古细菌基因组,所以 分别评估了每组基因组的特异性和灵敏度(扩展数据图2C)。使用软件包统计数据(Kolmogorov – Smirnov测试)51在R中进行统计测试51。
与NCLDV重叠群的有针对性的融合的互补,我们在IMG/M中对公共元基因组进行了基因组融合(2018年6月评估)15,metabat(V.0.32.4)53在“ SuperSpexific”模式下使用metabat(V.0.32.4)53,使用“ Superspecific”模式,使用IMG和最小孔的最低contig cortig umimim contig umimim contig umimim contig。然后使用CheckM(V.1.0.7)54检查结果磁质量的质量。完整性的基因组垃圾箱 <50% were labelled as low quality according to the ‘minimum information for a MAG’ (MIMAG) standards55.
The 5,064 NCLDV-specific models were used for hmmsearch (v.3.1b2, http://hmmer.org/) on the initial set of around 537 million proteins encoded on about 45 million contigs with a length greater than 5 kb with an E-value cut-off of 1 × 10−10 (Extended Data Fig. 1). In addition to the screening of the metagenomic contigs with NCLDV-specific models, we also used an automatic classifier using gene density and RBS motifs (see above). On the basis of the output of the automatic classifier, a score was assigned to each contig: a score of 2 if Ratio_TATATA_36 > 0.3或pred_simple_ncldv_score> 0.3,预测结果为“ virus_ncldv”,如果比率_tatata_36> 0.3或pred_simple_ncldv_score> 0.1,则得分为1,或预测结果是“ virus_ncldv”,否则是0。最大化灵敏度,同时保持足够的特异性。最终的大约120万个重叠群,其RBS得分至少为1和/或至少20%的基因(5中的1个中的1个)对NCLDV模型的命中率(5个)的基因(1分中的1个)进行核基因组固定,如下所示:对于每个metageNome,对NCLDV的每个COPTIG进行了使用,并将其用于coptig coptig astig coptig astig astig astig astig astig astig astig astig astabat56(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)(V.2)在IMG43中。目标的binning方法引起了大约72,000个推定的NCLDV MAG。
从GVMAGS中除去长度小于5 kb的重叠群。根据NCVOGS16的拷贝数(补充表2,3)进行过滤。GVMAGS编码20多份NCVOG0023,4份NCVOG0038,12份NCVOG0076的副本,7份NCVOG0249的副本或4份NCVOG0262。基于16个保守的NCOVG(NCVOG0035,NCVOG0036,NCVOG0038,NCVOG0052,NCVOG0059,NCVOG0059,NCVOG0211,NCVOG0211,NCVOG0249,NCVOG0249,NCVOG0256,NCVOG0256,NCVOG0256,NCVOG0262,NCVOG111088888888888888888888888888888号,NCVOG0052,NCVOG0059,NCVOG0211,NCVOG1117,NCVOG1122,NCVOG1127和NCVOG1192),通常在所有已发表的NCLDV基因组中以低拷贝数以低拷贝数来进行,重复比率的计算如下。相应GVMAG中16个NCVOG的副本总数除以16个NCVOG的唯一观察总数。从数据集中排除了重复比率高于三个的GVMAG。然后,我们使用Diamond BlastP47对NCBI非冗余(NR)数据库(2018年8月),并根据针对古细菌,细菌,Eukaryota,Phages,Phages或其他病毒(包括NCLDV)(包括NCLDV)(包括NCLDV)的最佳BLASTP点击分类分类隶属关系,以使用E-Value Cuteft of 1×10-5。由于该数据集中大量错误分类的基因组,因此无视从塔拉地中海元素元素binning Surpey57衍生的蛋白质的最佳查询蛋白。NCBI NR数据库中没有命中的蛋白质被标记为“未知”。然后,我们使用过滤器根据最佳爆炸命中的分类隶属关系的分配来删除GVMAGS中的重叠群(补充表7)。最后,使用MAFFT48(v.7.294b)的NCVOG0023,NCVOG0038,NCVOG0076,NCVOG0249和NCVOG0262构建对齐。从Trimal58的比对中删除了90%或更多间隙的位置(v.1.4)。蛋白质比对被连接,并用iq-Tree59构建的物种树(LG+F+R8,V.1.6.10)。然后手动检查系统发育树,并根据20个保守的NCVOGS16,重复因子(见上文),编码密度,GC含量和基因组大小,根据20个保守的NCVOGS16的存在,不存在和拷贝数去除每个进化枝异常值。此外,手动删除了代表长树枝上的单例的GVMAG。然后使用所有可用的NCLDV参考基因组(2018年12月)将过滤的数据集聚集在一起,使用大于95%的平均核苷酸同一性,而FastAni60的比对分数至少为50%(v.1.1)。For each 95% average nucleotide identity cluster the 6 NCVOGs16 with the on-average longest amino acid sequences (NCVOG0022, NCVOG0023, NCVOG0038, NCVOG0059, NCVOG0256 and NCVOG1117) were subjected to a within-cluster all-versus-all BLASTp.这些制造商蛋白中的任何一个全长100%的身份均为其他群集成员的GVMAG被视为潜在的重复项。首先删除源自常规式套件的重复GVMAGS,并保留具有最大装配尺寸的GVMAG。
对MAG质量的估计对于它们在下游应用中的解释和使用至关重要。存在基于估计的基因组完整性和污染55的细菌和古细菌MAG的标准。这些完整性和污染指标通常是根据一组通用单拷贝标记基因来计算的。NCLDV中的一组保守基因是NCVOGS16,其中一个子集被证明可能是垂直遗传的16(NCVOG20,补充表2)。我们计算了每个超级克拉德的平均NCVOG20的平均数量作为单个副本或多个副本(补充表3)。然后,我们将每个GVMAG中观察到的单拷贝NCVOG20的数量与相应超级脱落的平均观测值数量进行了比较。考虑到NCLDVS2,61的高基因组可塑性,我们忍受了平均值的偏差为1.2,这被认为是低污染,而2倍被认为是中等污染(扩展数据图4和补充表4)。较高的与超级克拉德平均值的偏差可能是由于GVMAG的非共振组成引起的。因此,这些被认为是高污染的。我们还根据NCVOG20的存在估计完整性与各自超级克拉德的其他成员相比。与超脱落平均值相比,NCVOG20的90%或以上的存在导致分类为高质量的完整性。如果在GVMAG中至少存在NCVOG20的至少50%,则根据估计的完整性,各个GVMAG被归类为中等质量,或者如果少于50%的NCVOG20存在(扩展数据图4和补充表4)。最终的GVMAG质量是根据污染和完整性的组合确定的(补充表8)。将GVMAG分配给高质量类别的其他标准是存在不超过30个重叠群,最小组装大小为100 kb,并且至少存在一个大于30 kb的重叠群。将GVMAG分配给中等质量类别的是存在不超过50个重叠群,最小装配尺寸为100 kb,并且至少有一个长度大于15 kb的重叠群。
使用病毒Model62用基因标记进行基因调用。对于功能性注释,使用钻石(V.0.9.21)BLASTP47对先前建立的NCVOGS16和NCBI NR数据库(2019年5月)进行BLASTP,其E-VALUE临界值为1.0×10-5。此外,使用pfam_scan.pl(v.1.6)对PFAM-A63(v.29.0)(V.29.0)和RRNA和内含子鉴定了蛋白质结构域,并使用RFAM Database65(v.13.0)使用CMSEarch鉴定了CMSEarch。在最终的GVMAGS中未检测到RRNA基因。蛋酒mapper66(v.1.0.3)用于将功能类别分配给NCLDV蛋白。通过PorthomCl67(2018年12月的版本)推断蛋白质家族,并具有默认设置。
我们使用了针对超级计算机CORI44优化的HMMSearch(V.3.1B2,http://hmmer.org/)来识别在最终的GVMAGS和NCLDV参考基因组中编码的MCP的所有副本。提取蛋白质,并使用MAFFT48(V.7.294b)创建多个序列比对,用于74个NCLDV谱系,并具有至少5份MCP副本。对于每个谱系特定的MCP对齐,我们使用hmmbuild推断模型(v.3.1b2,http://hmmer.org/)。使用这些模型,使用这些模型,使用了HMMSearch(V.3.1b2,http://hmmer.org/)44来识别整个元基因组中的所有MCP(2018年6月IMG/M43,2018年6月),具有相同氨基酸序列的MCP被排除为潜在的重复。基于逻辑回归的分类器(SklearlLogisticRegress,solver ='lbfgs',multi_class ='ovr')在每个NCLDV谱系中训练了所有谱系MCPS命中的得分分布相对于整个Lineage特定MCP模型的分数。分类器的精度为0.861。如果分类器返回的概率大于50%(Sklearlent Prective_proba),则将未链接的元基因组MCP分配给NCLDV谱系,如果概率为50%或以下,则将其分配给NCLDV谱系。然后,我们根据观察到的GVMAG中观察到的平均MCP拷贝数和相应谱系中参考基因组的平均拷贝数对环境MCP进行了归一化。基于IMG元基因组中提供的坐标43,根据MCP的分布在MCP的基础上进行了python 3/baseMap的世界地图。
为了构建扩展NCLDV的种类树,选择了至少五个核心NCVOGS16中至少三个的病毒基因组:DNA聚合酶伸长酶延长亚基家族B(NCVOG0038),D5样旋转旋转酶酶 - 酶酶(NCVOG0023),包装ATPase ATPase ATPase(NCVOG0249),DNA或RRFAM,DNA或RRFAM;(NCVOG0076)和POXVIRUS晚期转录因子VLTF3样(NCVOG0262)。使用MAFFT48(v.7.294b)提取并对准NCVOGS(版本3.1B2,http://hmmer.org/),使用MAFFT48(v.7.294b)提取和对齐。从与Trimal58的对齐中删除了少于10%序列信息的列。然后,根据模型测试建议,根据模型测试建议,根据Ultrafast Bootstrap68和Lg+F+R8的偶联替代替代模型,基于所有五种蛋白与iq-Tree59(v.1.6.10)的串联比对计算物种树。系统发育多样性的百分比增加是根据NCLDV的系统发育物种树的分支长度的差异计算的,包括GVMAGS,与NCLDV物种树相比,根据NCLDV参考基因组的NCLDV物种(n = 205,基于平均核透明识别的平均化),与IQ-treee相比,基于平均核透明识别的NCLDV参考基因组(n = 205,无替代)。使用Itol71(v.5)可视化系统发育树。在物种树中单性谱系以及保守的ncvogs的存在或不存在模式(补充表4),定义了属或亚家族水平的谱系。如果在各个单系进化枝中没有病毒分离株,我们将其指定为MGVL。与分离株和MGVL相邻的谱系在工作术语超脱落下进一步合并。分离进化枝的分支长度根据采样病毒的密度有所不同。
从NCLDV基因组中提取靶蛋白,并用钻石BLASTP47查询NCBI NR数据库(2018年6月)。提取每个查询的前50个命中均与查询合并,根据蛋白质登录数进行了删除,并与mafft(-linsi,v.7.294b)48对齐,用trimal58修剪(将位置去除,与glepaps septerred ieplede Replesed i(超过90%)(超过90%v.1.6.10)使用Ultrafast Bootstrap68和基于贝叶斯信息标准在IQ-Tree69中实现的模型测试功能所建议的模型。在扩展数据的传说中指示了所选的模型图8。由于其大小,使用FastTree72(v.2.1.10)lg推断出ABC转运蛋白的系统发育树,可以在https://bitbucket.org/berkelelbucket.org/berkelelab/berkelelab/mtg-gv-gv-epple/上访问。使用Itol71(v.5)可视化系统发育树。补充表5中提供了有关功能基因在内的功能基因的信息。
为了生成细胞NR数据库,从NCBI NR数据库中删除了塔拉地中海基因组研究57的所有非细胞序列和序列。然后,使用1×10-50的E值临界值对NCLDV基因组中的所有蛋白质进行钻石BLASTP47,对细胞NR数据库,比对分数为50%,最小序列身份为50%。除去了同一血统内的最佳爆炸命中。与NCLDV BLAST数据库中的命中相比,在细胞NR中受到较低的E型蛋白质被认为是HGT候选物。然后,对定义的真核生物组的谱系泛 - 蛋白质体的最佳命中总数被用作边缘权重来构建HGT网络。该网络是在GEPHI(v.0.92)73中使用力布局创建的,并以2的边缘重量进行过滤。HGT候选者的PFAM注释基于最常见的域,Yecknog mapper(v.1.03)66分配了最常见的域类别。补充表6中提供了有关HGT候选者在内的HGT候选信息。HGT链接的数量受到参考基因组的可用限制和应用的严格性。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。