2025-06-23 21:50来源:本站
没有使用统计方法来预先确定样本量。在实验和结果评估中,研究人员并未对分配视而不见。
由有丝分裂雄激素产生的Aquagen菌株的单单双倍雌性的DNA充当使用Sanger和下一代测序技术测序的模板(补充表1)。使用软件和数据子集的不同组合生成各种组件(补充表2)。所选组件的基础是从Sanger(〜4×)和Illumina(〜202×)数据中生成的,该数据使用Masurca(v2.0.3)组件组装了37。使用初步组件中的信息(补充信息第1.3节)对大会进行了核对和差距。描述565,877个SNP的遗传连锁信息既可以确认和纠正脚手架,并且在受到其他组件的信息支持时,被用来在链接组中加入脚手架。随后,使用CrimAP38和SNP序列标签的子集(27,221)进行连锁分析来订购,定向和连锁支架为29个单染色体序列。大西洋鲑鱼染色体的命名法基于参考。35。
通过结合全长cDNA序列39,EST数据库的数据和来自15个组织的RNA-Seq数据来确定基因结构(补充表9)。使用Trimmomatic(V0.32(参考文献42))修剪RNA-Seq读数,并使用Star(v2.3.1Z12(Ref。43))映射到参考基因组序列,并使用GMAP44映射所有公开可用的mRNA和ESTS。袖扣45预测基因结构。使用TransDecoder46进行开放阅读框(ORF)预测。丢弃了与PFAM,Stickleback或斑马鱼的同源性匹配的基因模型。使用BLAST2GO47对SwissProt数据库进行功能注释。通过爆炸搜索鉴定了相关的元件相关的ORF,可针对可转座元件相关术语的功能注释基因名称中的注释转座元件序列和查询(即逆转录,转座子,转座子,转孔,可转垫,转座酶,转座酶,反向记录酶,反向记录酶,gag,bpol)。使用BLAST和GENOMETHREADER48的同源搜索组合鉴定了推定的表达和沉默的SS4R同印物,靶向先验定义的保守的共线重复区域(n = 98)。
从先前报道的鲑鱼13,49,50和从头重复找到的程序ltrharvest51,repotmodeller52和repet53中的序列组装了一个2,005个元素的大西洋鲑鱼重复文库。除了Matveev和Okada50和Repbase Database49中发现的策划重复序列外,使用BLASTN54验证了所有初步序列,以确保它们存在于基因组中的多个位置。根据制造商文档中概述的重复库构造程序进行过滤Ltrharvest序列55。使用BLASTN,如果没有至少在大西洋鲑鱼基因组中至少覆盖其长度的80%的新数片段(HSP),则将其他从头来源和彩虹鳟鱼重复文库的序列标记为潜在的嵌合体。在丢弃其他部分时,提取并保留了此类序列中任何不同高度重复的区域。所有库均合并,并根据Wicker等人56和制造商文档提出的指南删除冗余序列。注释组合文库中的序列,并根据注释数据库中的特征序列序列的相似性去除非转移元件宿主基因49,57,结构基序和手动检查的存在。
为了估计TC1-Mariner转座元素的历史活性,从40个TC1-Mariner家族中的每个家族中的每一个中最多可随机选择了100个随机选择的全长基因组拷贝,并使用Muscle58提取并对齐。所有家族在系统发育上彼此之间有着不同的不同,并且具有TC1-Mariner活动的星形邻居拓扑拓扑特征59。家族成员之间成对百分比相似性的分布,用于分析可转座元素活性的时间动力学。
使用LastZ60对大西洋鲑鱼的重复掩盖染色体序列相互对齐,以识别源自SS4R的98个同源块(有关详细信息,请参见补充信息第2节)。通过使用来自Lastz Alignments60的高分段对(HSP)平均核苷酸序列同一性的局部百分比,以1 MB的间隔确定同源序列之间的序列相似性,并以图2中的Circos plot61表示。
将推定的直系同源序列组与最佳的相互爆炸(BRB)蛋白质匹配整理。对于鲑鱼种类,将顶级BRB打击分配给了推定的直系同源组。使用MAFFT62构建了多个密码子序列比对,并在迭代框架中对指导进行了质量,在该框架中识别较差的密码子后重新安装了序列。
使用密码子比对,GTR+G+I模型和100个bootstrap复制,通过R-pakeAge Phangorn63计算最大似然(ML)基因树。分支特定的GTR+G+I取代率是从R-pakeAP64中估算的功能,而分支特定的同义(DS)和非同义(DN)替代率在Phangorn R Package63中使用Pairwise DN和Codeml65和MML65的DS远程MATRIX和ML GENE ASENENED ATTUPT ASTUCT ASTOVION ASTOVION ASTOPOLIES ATTUP估算了Phangorn R Package63中的非负平方回归63中的非同义(DN)替代率。
通过对CODEML不同模型下序列进化的ML样可能性测试进行了分支位点特异性测试,以对ML类样的估计值进行阳性选择。在可能性比测试(LRT)中使用了四个欧米茄起始值(0.5、1、1.5和2)的最小似然估计。通过R中的p. phust函数进行了错误的发现率调整。
BEAST66用于使用HKY+G替代模型,不相关的对数正态时钟和Yule树校准基因树。野兽分析仅基于在Salmo和Oncorhynchus中产生的ML基因树拓扑的密码子比对,并在Salmo-Oncorhynchus分歧salmo-oncorhynchus中发生了重盘化。未指定树木拓扑的先验,并且使用了最新的鲑鱼型祖先 +埃索象的127 MYR(置信区间12.5 Myr)的单个次级校准7,8。所有马尔可夫链蒙特卡洛(MCMC)分析均进行1000万代,每1000代采样。Tracer V1.6(可从http://beast.bio.ed.ac.uk/tracer获得)来检查树参数的有效样本量(ESS)。基于最近1,000个MCMC样本的100个随机采样的树拓扑,构建了50%的共识拓扑结构。salmo – nocorhynchus差异的年龄估计为每棵树两个节点的中位数。
如果至少一个组织的FPKM值高于1.0,则将基因归类为“表达”,并且将值转化为Log2(FPKM+1)值以进行连续分析。使用Pearson相关和R函数HClust67中的Pearson相关和Ward的方法聚类,并使用R函数Heatmap.2(GPLOTS库)将其视为热图。在热图中单独缩放基因。
通过模拟(10,000个随机化)鉴定出大量共享同源对的群集。如果在13个常见组织中,与派克直系同源物的相关性高于0.6(p = 0.03),则将鲑鱼基因(或外显子)分类为保守,如果相关性低于0.55(p> 0.05),则差异。如果至少一个鲑鱼基因保守并且两个鲑鱼基因在不同的簇中,则将鲑鱼同种异体对被归类为新功能化,如果两个鲑鱼基因分歧并且在不同的簇中,则在不同的簇中进行了功能化,但它们的汇总表达得到了保守。
将表达特异性计算为在所有样品中的所有样本中,该样品中的所有样本中的总和除以任何样品中的最大表达。使用Wilcoxon检验计算簇之间的特异性显着差异。
从Ensembl比较79(参考文献27)下载了所有死刑物种的现有基因家族。将Salmo Salar,Esox Lucius和oncorhynchus mykiss的基因组添加到这些基因家族中,或用于创建具有爆炸的新基因家族以确定同源关系(E-Value> 1e-10-10和%ID> 50))。使用MAFFT62(命令行选项–Auto)生成具有鳞翅目Oculatus作为外组的扩展基因家族的多个序列比对,并使用JTT+G替代模型建造了使用PHYML 3.4(参考文献68)建造基因树。使用NCBI定位物种树,使用SoftParsMap69来识别树木中的重复和物种事件。这导致了12,388个具有物种根节点的基因家族,其中包括26,325个鲑鱼基因。
然后评估构造的基因树以在SS4R事件发生后对TS3R,SS4R,小型鲑鱼特异性重复(SSD)的重复保留,并在TS3R和SS4R之间进行重复。通过检查TS3R之后从SS4R保留的基因的条件百分比,以及从SS4R到鲑鱼谱系上的小规模复制,来计算重复的保留率。计数每个基因的重复谱系,以确保每个谱系的保留或丧失重复,并期望每个TS3R重复都会产生两个SS4R,并且每个SS4R都应导致两个小规模重复。Post3R – Press4r SSD也有期望导致两个SS4R重复。如果可以将节点分配为SS4R或SSD,则使用基因的染色体位置来区分模棱两可的节点。如果重复的鲑鱼基因驻留在同一染色体上,则确定这种模棱两可的淋巴结为SSD。否则,它被归类为SS4R。由于沿着谱系仅发生单个SS4R重复,因此如果发现两个歧义节点可以沿相同的谱系分类为SS4R,则一个分类为SS4R,其余的是SSD,并且将其归类为SSD,而最古老的重复是SS4R,这是SS4R,这是一个没有影响数据中趋势的假设。尽管大多数基因树拓扑与硬骨树一生一致,但一些基因树显示出与所接受的物种树的偏差。这些树木可能受到系统发育误差的影响,这可能会导致虚假重复计数,并高估基因家族中重复事件的数量。然后,计算条件概率,以确定在每个WGD之后的保留基因重复项的分数,鉴于保留的机会。
为了评估蛋白质 - 蛋白质相互作用的重复保留是否受到影响,从字符串数据库70下载了已知的蛋白质 - 蛋白质相互作用。对Danio rerio进行了爆炸,并确定了鲑鱼中的假定弦相互作用。仅保留标记为“结合”的相互作用,这些相互作用是基于各种证据的假定物理蛋白质与蛋白质相互作用。然后,使用上面用自定义Perl脚本描述的系统发育树在字符串结合伙伴中检查了TS3R,SS4R和SSD之后的共押模式。
进行了显着性的统计检验,以确定重复计数是否彼此显着不同。复制过程由二项式分布表示,每个重复都可以保留或不保留。进行了两倍的汇总Z检验,以计算Bonferroni校正后的α级别(0.001/7)的双面P值。为了进一步探讨结果是否具有边缘效应水平变化或受大型样本量过度影响的结果是否显着,对每组进行了优势比和相对风险分析,并计算了双向P值。所有测试均显示出极低的P值,表明两组与另一个彼此显着不同71。效应大小被认为是平均值的分数变化。
此分析中使用的所有脚本均在美国坦普尔大学(美国坦普尔大学)的网站上免费获得,网址为https://liberles.cst.temple.edu/public/salmon_genome_genome_project/。
使用鲑鱼重复数据库和repretmasker v4.0.3(参考72)重复鲑鱼染色体序列,并使用Megablast73对齐彩虹鳟鱼支架13。当通过使用LEP-MAP74的2,464个个体的家庭材料中构建的31,390个SNP,彩虹鳟鱼脚手架映射到多个鲑鱼染色体被映射到多个鲑鱼染色体。将鳟鱼支架的相对位置与鳟鱼连锁图一起使用,与位置,东方和连接酸盐11,335彩虹鳟鱼支架为29个单染色体序列(1.37 GB)。彩虹鳟鱼染色体的命名法是基于参考文献的。35。彩虹鳟鱼和大西洋鲑鱼之间的保守同义块是通过使用LastZ60相互对抗的染色体序列来确定的。