2025-06-24 03:41来源:本站
使用搜索短语“ Flaviviridae Taxid 11050和未分类的Flaviviridae Taxid 38144”收集黄素病毒序列。在同一日期,字段]或pesti [所有字段]或hepaci [所有字段]或PEGI [所有场]和病毒[滤波器]”。后来从GenBank的出版物中获取了其他序列,该序列在时间12,40,51,51,52,53,54,55,56中。
将序列聚集到95%的核苷酸同一性阈值,以近似物种级别的区别,不包括LGF tick相关的进化枝。使用具有非默认参数的“ CD-HIT-EST -C 0.95 -N 9”的CD-HIT(v4.6.1)57进行聚类。随后,通过删除不完整的编码区来手动策划聚类序列集。除去序列的序列短于2,000个核苷酸,除了Jingmenvirus,其中已知段的长度<2000核苷酸。使用基因素元查找ORF工具(v2022.0)(https://www.geneious.com/)58对这些核苷酸序列进行翻译,并与与注释参考序列(如果可用的)使用MAFFT FFT-NS-I X2(V7.402)(V7.402)对齐的蛋白序列,以评估基因组的完整性59。通过使用SFLD(v4.0),Panther(v17.0),超家族(v1.75),Prosite(v2022_01),Prosite(v2022_01),CDD(v3.18),PFAM(v3.18),pfam(v34.0),智能(V7.0),智能(V7.1),prosite(v1.75),使用Intercoscan软件包(v5.56-89.0)预测保守的域(v5.56-89.0),以补充这一点。数据库(v4.3.0)38。从后续分析中除去确定包含部分编码序列的序列。
由于最近报道的Haseki Tick病毒与tick传播的传染病在人类中,与tick相关的LGF特别关注。为了识别相关病毒,我们使用Diamond Blastx(v2.0.9)37(e-value阈值为10-5,' - ultra-sensive” flag)筛选了由Serratus60生成的序列读取档案(SRA)RDRP微型组件37)37 haseki Tick Virus(utq11742)As the Query。建立了1.6×10-15的电子价值阈值,以将重新组装的库数限制为可管理的数量。该阈值是根据与SRA库相关的生物和标识百分比值确定的。符合此阈值的319个SRA库是在Batchartemissraminer Pipeline61之后处理的。简而言之,使用翠鸟(v0.3.0)(https://github.com/wwood/wwood/kingfisher-download)检索了RAW FASTQ文件,质量的修剪和放射器使用Trimmomatic(v0.38)62与参数slidingwindow slidingwindow:4:5,前进:5,trailling:5,nove:25,de nove and nove and trailot and tribing and trailo(v1.2.9)63带有默认参数。将组装的重叠群与NCBI非冗余蛋白数据库(截至2023年3月)进行比较,并使用钻石BLASTX进行自定义的Flaviviridae蛋白数据库,如上所述。系统发育分析中包括所有新型的黄病毒预测包含该方法鉴定的完整编码序列(包括LGF组外部的编码序列)。
我们采取了一种策略来克服不完整和模棱两可的基因组注释,并产生可与结构快速推断的序列长度。黄素科多蛋白氨基酸序列被分解为具有100个残留重叠的顺序300个残留块。但是,大多数多蛋白在300上都不能同等地排除,因此,我们设置了最终序列块以覆盖多蛋白的最终300个残基,而与倒数第二块重叠无关。这导致了561种的16,463个序列块(来自Flaviviridae的558种,群体外群的3个)。使用默认设置的Alphafold2(v2.3)19的ColabFold(v1.5.1)实现了每个序列的结构,但使用Google Colab Cloud Computing执行。还使用局部计算(NVIDIA V100 GPU+32GB VRAM)对ESMFOLD(V1)18(使用30亿参数ESM-2模型)进行结构推断。这导致了总共32,926个结构模型。自定义的Python脚本用于分解从输出中折叠和提取指标的序列(即PLDDT置信度和MSA深度)。为了推断假定的成熟蛋白序列(图3),信号服务器(v6.0)用于预测病毒蛋白之间的连接64。对于自定义的ColabFold推断(图4),使用MAFFT,Muscle(v5.1)65对齐Bole Tick病毒组的整个多蛋白序列,仅涵盖假定蛋白质序列的亚平整被转换为.A3M格式并用作ColabFold结构预测的输入。所有预测的结构和摘要统计信息都包含在相关的Zenodo存储库中(https://doi.org/10.5281/zenodo.11092288)66。使用FATCAT(V2.0)49进行代表性的结构叠加(图4)。所有结构可视化均准备使用UCSF Chimerax67出版。
我们在详尽的搜索模式下使用了foldseek,将flaviviridae蛋白质折叠与从蛋白质数据库中绘制的参考结构库和特定目标的Colabfold模型进行了比较(见下文)。FOLDSEEK设置为输出E值,结构对齐的氨基酸序列,比对残基的身份的百分比,位评分和LDDT结构相似性,E值截止为0.1,以消除低概率命中率并减少输出数据文件的大小。为了询问输出数据,使用自定义Python脚本提取了任何给定物种对任何给定参考结构的最低电子价值分数。如果将多个参考用于单个蛋白质,则选择了针对任何给定物种的最低E值。使用Life的互动树对基于序列的系统发育绘制了这些数据68。选择了代表性的命中(图2D -G和扩展数据图7),以反映结构和序列的相似性和差异水平。All reference structures are included in the underlying data, the following experimental structures were used from the PDB: 6ZQI (Spondweni virus E and prM), 1L9K (DENV-2 MTase), 5F3Z (DENV-3 RdRp), 7QRF (TBEV E and prM), 7V1E (Omsk haemorrhagic fever virus MTase), 7T6X (HCV E1和E2),6vyb(SARS-COV-2尖峰,阴性对照),2YQ2(BVDV E2)和4DVK(BVDV ERNS)28,33,46,69,70,71,71,72,73,74。为了增加参考覆盖范围,还使用了DENV-1 PRM E和多样的肝病毒,Pegivivirus和Pestivirus E1和E2(来自Oliver等人36)的其他Colabfold模型。BTV4蛋白的Colabfold或Esmfold结构(图3A)用于下游Foldseek分析中,并作为在图4中介绍的结构系统发育工作的连续糖蛋白结构组装中的参考(见下文)。
为了证明通过结构预测方法实现的灵敏度的提高,我们进行了两项基准分析。在第一次分析中,我们通过使用Diamond BlastP(E-Value阈值为0.1和“ - 符号敏感”国旗)对参考结构数据库的基础的300个残留块来概括了FoldSeek搜索。然后,我们过滤结果以选择每个黄病毒和参考序列对具有最低E值的块。The second analysis involved annotating the complete Flaviviridae polyprotein sequences using the InterProScan software package (v5.65-97.0) with the AntiFam (v7.0), FunFAM (4.3.0), MobiDBLite (v2.0), NCBIfam (v13.0), SFLD (v4.0), PANTHER (v18.0), SuperFamily (v1.75), CDD(v3.20),PFAM(v36.0),SMART(v9.0),PRINTS(V42.0)和PIRSF(V2023_05)数据库38。由于E值是每个InterPro数据库的特定于E值,并且每个数据库都使用了自己的电子价值后处理,因此直接比较是不可行的。因此,如所建议,所有匹配都被视为暂定命中(https://interproscan-docs.readthedocs.io/en/latest/faq.html)。
黄素科之间的进化关系是使用源自高度保守的NS5B区域(编码RDRP)的MSA的最大似然系统发育。该区域是通过根据其分类法对齐多蛋白序列子集的对准序列从每个序列中提取的,并使用Intercoscan的既有和新生成的NS5B注释均已作为指导。由于已证明对齐和修剪参数会影响Flaviviridae75的拓扑作用,因此我们比较了几种导致225种系统发育的方法。简而言之,使用MAFFT,Muscle(V5.1)65和Clustal Omega(v1.2.4)76对准黄病毒序列,具有默认参数。使用三个带有8个保护阈值的三层(V1.4.1)77去除模棱两可的对齐区域(也就是说,要保留的比对柱的最小百分比):5、7.5、10、12.5、15、15、17.5、20和25;和3个间隙阈值(即,需要保持列需要没有间隙的序列的最小分数):0.7、0.8和0.9,以及自动参数选择方法的gappyout。
使用IQ-Tree 2(v2.1.0)78估算所有最大可能的系统发育树。使用Modelfinder(LG+F+R10)选择的模型(LG+F+R10),还比较了使用Modelfinder函数(LG+F+R10)的两个额外模型(比较Le-gascual模型(LG)和FLAVI80的两个模型,也比较了使用Modelfinder功能的最佳拟合模型。使用UFBOOT2算法的1,000个引导程序重复计算分支支持,并在IQ-Tree 281,82中实现了SH样近似似然比测试。为了扎根系统发育,鉴于它们与flaviviridae 2,10的NS5区域的远程序列相似性,选择了三个托姆维里迪科家族的成员。使用R包APE(v5.6.2)83,Phytools(V1.5-1)84和Ggtree(v3.3.0.9)85对系统发育树进行注释,并在Adobe Illustrator中进一步编辑。使用手动精选的预测功能域选择了基因组图,并使用gggenomes(V0.9.8.9)86构建了基因组图。
对于每个病毒序列,使用Rentrez(V1.2.3)87从相应的GenBank“主机”字段中获取主机信息,并使用税收(v0.9.1)88进行标准化。通过首先查询Arbovirus目录(https://wwwwn.cdc.gov/arbocat/),将矢量状态定义为“是”,“否”或“潜在”。如果分类单元被Arbovirus目录确定为“ Arbovirus”,则被分配为“是”,否则对于被列为“潜在的Arboviruses”,“可能的Arboviruses”或不存在的目录中的人分配了,该分类单元的文献被审查以获得媒介协会的证据。考虑了三个主要标准:(1)该病毒是否在无脊椎动物和脊椎动物细胞中复制;(2)病毒的系统发育位置,也就是说,在昆虫特异性进化枝中间的病毒吗?(3)关于病毒被载体的可能性的文献共识。补充表3中提供了每个分类单元的指定向量状态和此基础证据。
为了确定最强大的NS5B系统发育,检查了对齐(n = 225)的比对(n = 225),以了解存在规范的RDRP基序,未对准以及整体成对身份和长度。在Figtree(V1.4.4)89中检查了所得树拓扑和分支支撑。该分析与基因组组成的比较以及与先前的Flaviviridae系统发育的比较10,47,75,以确定在测试的多个参数中最一致的拓扑。为了补充这一点,使用R软件包树空间(V1.1.4.2)90用于进行主成分分析(PCA),目的是识别相似树木的簇并评估所选拓扑是否与中间拓扑一致。因此,计算了每棵树的Kendall -Colijn距离,并用于PCA,并保留了两个主要成分91。为了识别相关树的离散簇,使用分层聚类(Ward's方法)92将成对距离映射到四个簇中。手动和基于距离的检查表明,对齐方法使树木拓扑和系统发育之间的分支长度变化。具体而言,与MAFFT和肌肉产生的树木拓扑及其相应的系统发育距离在拓扑上是不一致的。因此,排除了这些系统发育,并重新计算了PCA。从每个群集和比对方法产生几何中位树,并用于告知最终系统发育的选择。该系统发育使用具有三个共识和间隙阈值5和0.9的肌肉对齐,并基于LG+F+R10氨基酸取代模型。我们进一步进行了广泛的分层肌肉对准分析,以验证我们的NS5B比对的鲁棒性和结果的系统发育,这些系统考虑了隐藏的马尔可夫模型(HMM)参数的变化,并指导树合并订单 (补充注释1和补充图2-7)。
为了推断RNase T2蛋白的进化历史,使用“ Taxid 238513”和“ Taxid 238220”查询从GenBank蛋白数据库中获得了保守域的序列,文献搜索93,94,这些搜索是使用Alphapasese folphapasse foldeek cllapseek cllusseek cllusseek clluseek cllussek clluseek cllussek clluseek cllussek cllusseek cllussek cllusseek进行了补充。
为了鉴定病毒基因组中未注明的RNase T2样序列,NCBI Web蛋白爆炸(https://blast.ncbi.nlm.nih.gov/blast.cgi)与RNase T2序列一起使用,用作群集的非固定蛋白数据库(6月2023年6月2023年)的查询。仅限于“病毒”组(Taxid:10239)。HMM搜索Web服务器(v2.41.2)97用于识别其他病毒T2 RNase样序列。RNase T2序列的比对被用作针对参考蛋白质组,UniprotkB,SwissProt和PDB数据库的查询(截至2023年6月),结果再次仅限于“病毒”(Taxid:10239)。截至2024年4月,使用HHPRED Web 98,99和使用HHSearch(v3.3.0)100,101的PDB,范围,智能,智能,PFAM,UNIPROT-SWISSPROT-VIRAL,PHROG,COG和KOG数据库和KOG数据库进行了重复。对于所有方法,如果检测到新病毒序列,则将它们手动检查是否存在RNase T2基序,然后用作查询。为了估计RNase T2系统发育,使用默认参数的钻石簇(v.2.0.9)102在80%氨基酸同一性(v.2.0.9)102下聚类,并使用MAFFT与病毒序列对齐,如上所述。
我们实施了以前描述的方法45来根据结构和序列同源性推断糖蛋白系统发育。由于将蛋白质序列的任意片段化成300个残基块,我们的预测结构代表了真正的糖蛋白的重叠截断片段。为了生成完整的糖蛋白结构,我们通过0.001的电子值截止滤波器过滤了我们的foldseek结果,并选择了E,E1或E2参考结构,该结构对于每个查询病毒的任何蛋白质块都具有最高的位得分值。然后使用该参考来确定病毒多蛋白中每种糖蛋白的推定坐标,定义为最早的块fordseek命中率的开始位置,以及最新块命中的最终位置。该过程产生了247 E,190 E1和189 E2蛋白序列,其中大多数似乎是全长糖蛋白,但是少数截短序列可能是由于蛋白质组中的低孔隙结构预测所致。如上所述,使用Colabfold和Esmfold预测了完整糖蛋白序列的结构,但为每个目标产生了五个Colabfold模型。基于其平均PLDDT值的最自信的预测选择了下游分析。
我们修改了FAMSA Alignment Program103,如先前所述45(https://github.com/nmatzke/3diphy),使用foldseek 3DI字符替换矩阵。然后,我们使用foldseek“ structureto3didescriptor”选项将预测的完整糖蛋白结构转换为3DI序列,并使用了修改的FAMSA对准器来推断E,E1和E2蛋白集的结构,3DI序列比对。这些MSA基于与每个蛋白质残基相对应的3DI特征之间的同源性,应代表这些蛋白质之间的整体结构同源性。与Puente-Lelievre等人的方法一致。我们使用的Trimal77具有35%的间隙阈值来创建3DI MSA的修剪版本。除了3DI字符对齐外,我们还用MSA的完整版本和修剪版本中的蛋白氨基酸残基代替了3DI特征。这为每个E,E1和E2提供了总共四个MSA(3DI,修剪3DI,氨基酸,修剪氨基酸)。Modelfinder79在IQ-Tree 278中实施的Modelfinder79用于确定每个对齐的最佳替代模型。All possible models were tested, including the custom 3Di substitution model (-mset Blosum62,Dayhoff,DCMut,JTT,JTTDCMut,LG,Poisson,Poisson+FQ,Poisson,PMB,WAG,EX2,EX3,EHO,EX_EHO,3DI -mfreq FU,F -mrate E,G,R).所有对齐的选定替代模型都包含在相关的Zenodo存储库中(https://doi.org/10.5281/zenodo.11092288(参考文献66))。使用IQ-Tree 2(v2.2.6)78在每个相应的最佳拟合替代模型下推断基于每个MSA的系统发育树,并使用1000 Ultrafast Bootstrap Replicates 82评估了节点支持。最后,我们通过组合了相应的3DI和氨基酸MSA和进行分区模型IQ-Tree 2系统发育推断,基于3DI特征和氨基酸同源性进行系统发育推断。 其中两个分区对应于3DI和氨基酸MSA,每个分区使用其相应的MSA的最佳拟合替代模型。每个分区在合并的MSA系统发育推断中的贡献是根据通过IQ-Tree的-WPL选项推断出的分区对数可能性的。手动检查和分区贡献的分析用于选择图4中显示的树(所有由此产生的系统发育树在图9-11图中提供的所有系统发育树)。简而言之,与氨基酸分区相比,3DI分区对关节系统发育推断的贡献始终更大,尽管使用两种比对(而不是单独使用)通常有助于系统发育重建45。然而,在E糖蛋白系统发育的情况下,氨基酸分区的贡献明显低于3DI分区的贡献(补充表4)。此外,我们发现只有E系统发育的重建氨基酸的长分支吸引力的明确证据(图9扩展数据),并认为这些伪像可以延续到联合的3DI-氨基酸重建中。因此,为E蛋白选择了基于3DI的系统发育,而3DI-氨基酸树则用于E1和E2(图4)。
作为比较的点,使用Foldtree105从我们的定制全长糖蛋白结构中产生了其他结构系统发育。对于每个结构集(E,E1和E2蛋白集),使用默认参数的三个指标Foldtree,LDDT和TM得分推断系统发育(参见补充图9)。但是,鉴于与在结构距离上使用邻居连接方法相关的局限性(在Puente-Lelievre等人45中概述),我们认为上面概述的3DI引导方法可能会产生更强大的结果。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。