从四代血统参考的人类突变率

2025-06-23 13:48来源:本站

  知情同意是从Ceph/Utah个人获得的,犹他大学机构审查委员会批准了这项研究(犹他大学IRB参考IRB_00065564)。这包括为23个家庭成员发布研究数据的知情同意;其余5个提供了​​具有受控访问的生物库的知情同意(数据可用性)。

  CEPH 1463家族成员的细胞系(G1-GM12889,G1-GM12890,G1-GM12891,G1-GM12892,G2-GM12877,G2-GM12877,G2-GM12878,G3-GM12879,G3-GM12879,G3-GM12879,G3-GM12881,G3-G3 G3 g3282,G3 g3282,g3 g3282,g3-gm11282,g3-gm11282,g3-gm11282,g3-gm11282,g3-gm11282,g3-gm1282 ,,G3-GM12884,G3-GM12885,G3-GM12886和G3-GM12887)是从Coriell医学研究所(CEPH Collection)获得的。Cell lines for G3 spouses and G4 family members (n = 13) were generated in-house as EBV transformed lymphoblastoid cell lines and include: G3-200080-spouse, G4-200081, G4-200082, G4-200084, G4-200085, G4-200086, G4-200087, G3-200100-spouse, G4-200101, G4-200102,G4-200103,G4-200104和G4-200106。

  所有细胞系均由DNA的WG验证,随后的变体呼吁与个体的预期性别和测序是由同一个体的血液衍生DNA引起的。此外,我们探索了获得的测序数据是否与父母和后代的预期继承模式相匹配。据我们所知,上面提到的细胞系未经过支原体污染测试。

  为了更新知情同意和健康历史,并招募孩子(G4)和婚姻父母(G3),重新开始了来自G2和G3的家庭成员。从全血中提取了G2和G3的存档DNA。新入学的家庭成员接受了知情同意,并获得了DNA和细胞系的血液。使用挠曲系统(Qiagen 51206)从全血中提取DNA。所有样本都是为了科学目的而广泛同意的,​​这使得该数据集非常适合将来的工具开发和基准测试研究。

  从正交短和长阅读平台中的测序数据如下:

  如前所述,生成了G1 -G3的Illumina WGS数据。西北基因组中心使用无PCR Truseq库准备套件生成了G4的Illumina WGS数据和G3的婚姻配偶,并在Novaseq 6000上测序了大约30倍的Novaseq 6000,并具有成对的150 bp读数。

  PACBIO HIFI数据是根据制造商的建议生成的。简而言之,使用君主HMW DNA提取试剂盒中描述或培养的淋巴细胞从血液样本中提取DNA(新英格兰Biolabs,T3050L)。在所有步骤中,使用Qubit DsDNA HS(Thermo Fisher Scientific,Q32854)进行定量,在DS-11 FX(Denovix)上测量,并使用FEMTO脉冲(Agilent,M5330AA和M5330AA和FP-1002-0275。基于初始质量检查的系统使用设置28/30、28/31或27/29,以瞄准约22 kb的峰值。剪切后,使用SMRTBELL PREP KIT 3.0(PACBIO,102-182-700)使用DNA来生成PACBIO HIFI库。根据协议,使用稀释的AMPURE PB珠进行尺寸选择,或者使用Pippin HT使用基于剪切尺寸的10–17 Kb之间的高通截止(Sage Science,HTP0001和HPE7510)进行。使用续集II测序化学3.2(PACBIO,102-333-300)在SMRT细胞上的续集II平台上进行了库进行测序,并在SMRT link v.11.0或11.0或Revio Smrt(Pac-io smrt and evio smrt and revio smrt(Pac)上(PacBio,102-333-300)(PacBio Pre-Extension)和30 h电影(30 h)聚合酶试剂盒V1(PACBIO,102-817-600)具有2小时的前延伸和24 h电影,在SMRT link v.12.0上。

  为了生成UL测序读取> 100 kb,我们使用了ONT测序。根据先前发表的方案64,从淋巴母细胞细胞系中提取超高的分子质量GDNA。简而言之,将3–5×107个细胞裂解在含有10 mM Tris-CL(pH 8.0),0.1 M EDTA(pH 8.0),0.5%(w/v)SDS和20 mg ML-1 RNase A的缓冲液中裂解1 h。然后,加入200μgml -1蛋白酶K,并将溶液在50°C下孵育2小时。通过两轮25:24:1苯酚 - 氯仿 - 异氧氨基醇提取,然后进行乙醇沉淀,将DNA纯化。将沉淀的DNA在10 mM Tris(pH 8.0)中溶解,在4°C下含有0.02%Triton X-100 2天。

  使用超长的DNA测序试剂盒(ONT,SQK-ULK001)构建了对制造商协议的修改:〜40μg的DNA与协议中所述的FRA酶和FDB缓冲液混合,并在室温下进行5分钟,然后在室温下孵育5分钟,然后在75分钟处进行热灭活5分钟。将RAP酶与DNA溶液混合,并在清理步骤之前在室温下孵育1小时。使用Nanobind UL库预备套件(Circulomics,NB-900-601-01)进行清理,并在450μlEB中洗脱。然后,将75μl的文库加载到Primed的FLO-PRO002 R9.4.1流动池上,用于在Promethion上进行测序(使用Minknow软件v.21.02.17-23.04.5),并在24和48 h的测序后用两个核酸酶洗涤和重新加载。所有G1 – G3基本呼叫均使用Guppy(v.6.3.7)完成。

  元素WGS数据是根据制造商的建议生成的。简而言之,如上所述,从全血中提取DNA。使用机械剪切制备无PCR库,产生〜350 bp的片段,元素升高图书馆制备套件(Element Biosciences,830-00008)。通过定量PCR对线性文库进行了定量,并在AVITI 2×150 BP流动细胞上进行了测序(元素生物科学,尚未商业上可用)。bases2fastq软件(元素生物科学)用于生成反复插曲的FastQ文件。

  使用已建立的Op-Strand-Seq协议65的简化版本制备单细胞链序列库,并进行以下修改。简而言之,在细胞周期的G1相中,使用荧光激活的细胞排序对G1-3的EBV细胞培养24小时,如先前所述65。接下来,将单核分配到开放式72×72井纳米叶阵列的单个孔中,并用热法蛋白酶处理,然后用限制性酶Alui和HPYCH4V(NEB)而不是微球菌核酸酶(MNase)消化DNA。接下来,将碎片a尾,连接到分叉的适配器,用紫外线处理并用索引引物扩大PCR。与MNase产生的DNA末端相比,限制酶的使用导致短,可再现的,钝的DNA片段(> 90%小于1 Kb),不需要末端修复。省略最终修复酶可以在分配单个核之前分发指数引物。预先发现的干燥底漆可以生存,并且在PCR扩增之前不会干扰库制备步骤。如先前所述65,索引引物的预先介绍比库制备过程中阵列之间的索引引物的传递更可靠。汇总并用AMPURE XP珠子进行串联序列库,并在NextSeq 550或Aviti(Element Biosciences)系统上进行PE75测序之前将300至700 bp的库片段纯化。补充图40显示了用限制酶制成的链序列文库的示例。

  使用BWA66(v.0.7.17-R1188),将曲线的FASTQ文件与GRCH38和T2T-CHM13参考组件(补充表14)对齐。使用SAMTools67(V.1.10)通过基因组位置对排列读数进行排序,并使用Sambamba68(V.1.0)标记重复读数。通过Ashleys69(v.0.2.0)预先选择了传递质量过滤器的库。我们还手动评估了此类选定的链序列库,并进一步排除了覆盖率不高的文库,或过多的“背景读数”(读取的绘制为预期仅继承Crick或Watson Strands的相对染色体的映射),如前所述70。这样做是为了确保准确的反转检测和相位。

  如前所述71,72,通过绘制链序列读取方向来检测到G1-G3的多态性反转。对于每个样品,我们选择了60多个链序列文库(范围为62-90),中位数约为274,000个读取,每个库的映射质量≥10,每个库涵盖了约0.67%的基因组(T2T-CHM13)(补充图41)。然后,我们在选定的Strand-seq库中运行了Breakpointr73(v.1.15.1),以检测Strand-State变化的点73。如前所述,我们使用这些结果使用brejepointr函数“ SynchronizerAddir”来生成样本特异性的复合文件。同样,我们在此类复合文件上运行了breakpointr,以检测区域以相反方向读取映射的区域,并表示反转。最后,我们通过检查UCSC基因组Browser74中的Strand-seq读取映射的每个报告的倒数区域手动评估了每个报告的区域,并删除了任何较低的呼叫。我们还使用链序数据逐步逐步逐步逐步逐步逐步逐步逐步进行,然后基于单倍型一致性将相位与相分基因组组件同步。最后,我们评估了被检测到的倒置和完全分阶段的孟德尔一致性。我们标记至少一半的G3样品被链段完全逐步分析,并与可能的遗传G2亲子等位基因作为Mendelian和一致性(补充表7)。

  使用两种不同的Verkko(V.1.3.1和V.1.4.1)16和HIFIASM(UL)(v.0.19.5)17生成阶段基因组组件。由于Verkko和Hifiasm算法的主动开发,组装有两个不同的版本。使用HIFI和ONT读数的组合使用父母Illumina K-Mers进行相位来生成G2-G3的分阶段组件。为了生成G1的基因组组件,我们仍然使用了HIFI和ONT读取的verkko管道读取的组合,并将strand-seq使用到相位组装图75。最后,使用HIFI仅使用HIFIASM读取G4样品(V.0.19.5)。

  请注意,使用Verkko的基于三重量的相位将母体分配给单倍型1和父亲为单倍型2。相比之下,对于HiFiasm组件,我们报告了开关的单倍型标记,因此单倍型1是父亲,单倍型为2型,而单倍型为2型是孕妇的HPRC标准HPRC标准HPRC标准HPRC标准的HPRC标准。

  为了评估每个分阶段组件的基本对和结构精度,我们使用了许多组装评估工具以及正交数据集,例如PACBIO HIFI,ONT,ont,Strand-Seq,Illumina和Element Data。补充表4列出了已知的组装问题。我们注意到,我们在基于组装的变体呼叫中修复了四个单倍型开关错误,以避免在后续分析中偏见。补充注释8中描述了本文中使用的组装质量术语。

  我们使用Strand-seq数据来评估每个分阶段组件的方向和结构准确性。首先,我们使用BWA66(V.0.7.17-R1188)将每个样品的选定链序列库与从头组装对齐。接下来,我们使用对齐BAM文件作为输入来运行Breakpointr73(v.1.15.1)。然后,我们使用breambointr函数createCompositeFiles创建了定向复合文件,然后使用RunbreakPointr函数在此类复合文件上运行Breakpointr。对于任何给定的样本,这为我们提供了所有单细胞链序列库的变化的区域。许多这样的区域指向真正的杂合反转。但是,在周围区域相反的方向绘制的链序读的区域可能是由于不良方向引起的。此外,在多个库中反复反复读取变化的链状态的位置可能是装配式连接的迹象,并且对此类区域进行了更仔细的研究以排除任何此类大型结构组装不一致。

  为了评估从头组装的精度,我们使用winnowmap76(v.2.03)与以下参数对齐样品特异性PACBIO HIFI读取其相应的分阶段基因组组件:

  Flagger9用于使用HIFI读取对齐组的读数和与参考基因组对齐的组件来检测杂料。根据读取差异和特定的参考偏置区域标记区域。使用了特定于参考的床文件(CHM13V2.0.SD.BED),将最大读取差异为2%,并指定参考偏置块。分析了这些标记的区域,以识别塌陷,错误的重复,错误的区域和正确组装的单倍体块,并具有预期的读取覆盖率。

  我们使用Flagger V.0.3.3(https://github.com/mobinasri/flagger)运行flagger_end_to_end wdl。

  所需的输入包括以下内容:

  使用GitHub(https://github.com/mrvollger/asrvollger/asm-to-reference-Alignment)可用的管道将组件的HAP1,HAP2和未分配的FASTA文件与CHM13V2.0对齐。

  nucfreq77(v.0.1)用于计算使用winnowmap76(v.2.03)对齐的HIFI读取的核苷酸频率。这被用来识别倒塌的区域,其中第二高的核苷酸计数超过5;和错误构造,其中所有核苷酸计数均为零。

  NUCFREQ分析管道可在GitHub(https://github.com/mrvollger/nucfreq)上获得。

  为了评估基因组组件的准确性,我们使用了使用Meryl78(v.1.0)的管道来计数Illumina的长度21的K-Mers使用以下命令:

  然后,我们使用了Merqury78(v.1.1),该(V.1.1)比较了测序中的K-MER与组装基因组中的k-mers读取的基因组和标志差异,这些差异仅在组装中唯一地发现K-Mers。这些独特的K-MER表示潜在的基本对错误。然后,Merqury根据MERYL的K-MER计数估计的K-MER生存率计算质量值,提供了一种定量措施来评估基因组组装的完整性和正确性。

  为了评估组装中单拷贝基因的完整性,我们使用了Creperm79(v.0.2.4)。更多详细信息可在GitHub(https://github.com/huangnengcsu/compleasm)上找到。

  我们通过以下参数进行了反复:

  并使用以下下载:crepeasm_kit/crepleasm.py下载灵长类动物。

  使用minimap2(参考文献80)(v.2.24)和以下命令,所有从头组件都与GRCH38以及人类参考基因组T2T-CHM13(V2)的完整版本对齐:

  该参考对齐的完整管道可在GitHub上获得:(https://github.com/mrvollger/asm-to-to-reference-Alignment)。

  我们还使用Rustybam(V.0.1.33)(https://github.com/mrvollger/rustybam)函数trim-paf生成了这些对齐的修剪版本,以修剪冗余对准,这些对齐主要出现在高度相同的SDS上。因此,我们旨在减少对这些重复区域的多个重叠群的多个比对的影响。

  对于此分析,我们使用汇编来引用对准(请参阅“汇编”部分的“汇编”部分),称为PAF文件。我们使用了Rustybam Trim-PAF功能报告的修剪PAF文件。稳定的二倍体区域被定义为分阶段基因组组件的区域,仅报告单倍型1和单倍型2的一个重叠群比对,并被分配为“ 2N”区域。每个单倍型具有两个或多个比对的任何区域都被分配为“多”对齐。最后,单个单倍型中仅具有单键式对齐的区域被分配为“ 1N”区域。这些报告是使用“ getploidy” r函数(代码可用性)生成的。

  我们使用三种正交方法构建了G2和G3个体的高分辨率重组图,这些方法是根据基础测序技术或应用于数据的检测算法而有所不同的。第一种方法是基于使用r package strandphapher81(v.0.99)从链序数据中提取的染色体长度单倍型。第二种方法使用源自家族谱系的小型变体的孟德尔一致性的继承向量。我们的最终方法使用基于三重的基因组组件,然后使用PAV和DIPCALL来更精确地定义减数分裂断裂点。

  相比之下,使用G3配偶的Strand-seq数据和G4样本的基于组装的变体呼叫集(DIPCALL)构建了G4个体的重组图。由于使用G4配偶的基于链序列的单倍型的低变化密度,与G2和G3样品相比,报道的重组断点的分辨率较低(补充表8)。

  为了使用圆形二进制分割绘制减数分裂重组断点,我们使用了两个不同的数据集。第一个数据集代表基于Strand-Seq(SSQ)Phasing22,81的阶段小型变体(SNV和Indels)。另一个基于PAV8(V.2.3.4)或DIPCALL82(v.0.3)中报告的基于三重量的组件中报告的小型变体。通过这种方法,我们将重组断点视为孩子的单倍型从给定父母的H1匹配到H2的位置,反之亦然。为了检测这些职位,我们首先通过计算每个父母的儿童等位基因和纯合变体之间的一致性水平来确定孩子中的哪种同源物是从父母那里继承的。接下来,我们将每个孩子的同源物与相应父母的同源物进行了比较,如果它们分别匹配H1或H2,则将其编码为0或1。我们通过使用R package fastSeg83(v.1.46.0)中实现的R函数FASTSEG在此类二进制向量上应用了圆形二进制分割算法,并使用以下参数:。在稀疏的链序单倍型的情况下,我们将FastSeg参数设置为20,而对于基于装配的单倍型,我们使用了一个较大的400和500窗口,用于基于DIPCALL和PAV的变体呼叫,以在检测重组突出点时获得可比的敏感性。然后将平均值≤0.25的区域标记为H1,而分割平均值≥0.75的区域分配为H2。这些值之间具有分割平均值的区域被认为是模棱两可的,被排除在外。此外,我们滤波了比500 kb的区域,并合并的连续区域分配了相同的单倍型(代码可用性)。

  DeepVariant调用(请参见来自G1,G2和G3谱系成员的HIFI测序数据的“基于读取的变体调用”部分),当G3中的杂合子基因座的原始原点单倍型并推断出在端口之间变化的单倍型时,沿染色体的重组发生。通过首先应用深度滤波器以删除每个样品预期覆盖范围之外的变体,可以确定继承向量的初始概述;然后,使用自定义脚本绘制继承,需要至少10个支持特定单倍型的SNV,并手动精制以删除生物学上不可能的单倍型块,或在存在支持的情况下添加其他单倍型块,并提炼了单倍型坐标。从谱系竞争变体的块发生中发现了缺失的重组,与基于组装的重组调用的位置匹配。我们开发了一个隐藏的Markov模型框架,以使用Viterbi算法从SNV站点识别最可能的继承向量序列。有关包括过渡/排放概率在内的详细信息,请参见参考。18和关联的GitHub存储库(https://github.com/platinum-pedigree-consortium/platinum-pedigree-inheritance)。

  过渡矩阵定义了给定继承状态转变(重组)的概率。发射矩阵定义了在特定基因座处的变体调用准确描述继承状态的概率。对过渡和发射矩阵中包含的值进行了完善,以概括先前识别的继承向量,同时正确识别丢失的向量。Viterbi算法确定了539个重组,母体重组率为每MB 1.29 cm,父亲重组率为每MB 0.99 cm。在血统中观察到母体偏见,在母体起源的G3中鉴定出57%的重组。

  与不同的正交技术和算法报道的减数分裂重组断点(请参阅“使用圆形二进制分割对减数分裂重组断点的检测”和“使用遗传矢量检测减数分裂重组断点”的部分,以获取G2和G3样品。我们从G3重组图开始,在该图中我们使用基于继承的映射作为参考,然后在基于PAV,DIPCALL和Strand-Seq(SSQ)阶段变体中报告的每个参考断点的支持。如果对于给定样品和同源物,则支持重组断点,正交技术报告的断裂点与参考断点不超过1 MB。任何进一步分开的重组断点均报道为独特。我们还为G2重组图重复了此图。但是,在G2重组图的情况下,我们使用基于PAV的映射作为参考。这是因为基于继承的方法需要三代人来映射G3中的重组断点。我们还报告了一个称为“ Best.range”的列,该列是所有正交重组图中最狭窄的断点,它直接与给定的参考断点直接重叠。最后,我们报告了一个“ min.range”列,该列代表任何给定的断点范围内所有正交数据集覆盖范围最高的范围。补充表8中报告了合并重组断点。

  我们测试了所有(n = 1,503)重组断点在G2 – G4中相对于T2T-CHM13检测到的所有(n = 1,503)的富集,如果它们根据父母同源物的起源,它们将它们聚集在染色体的末端。为此,我们计算了每个染色体末端的最后5%的重组断点的数量,专门针对母亲和父亲断裂点。然后,我们将检测到沿每个染色体1000次的重组断裂点并重做计数。对于置换分析,我们使用了R package riender84(v.1.32.0)及其函数permtest带有以下参数:

  到目前为止,使用对单个线性参考(GRCH38或T2T-CHM13)检测到的变异来调用所有减数分裂重组断点。为了减轻与单个参考基因组相比引入的任何可能的偏见,我们着手与父母单倍型直接从中遗传为同源物的父母单倍型,以优化每个继承同源物(在儿童中)的重组断点。我们仅通过选择“ Best.Range”列(补充表8),从G3的一组合并的T2T-CHM13参考断点开始。然后,对于每个断点,我们将“查找”区域从断点边界设置为每侧的750 kb,并将SVByEye85(v.0.99.0)函数子集合子设置为子集对组件的子集对齐(T2T-CHM13)的子集对齐。接下来,我们从分阶段的组件中提取给定区域的FASTA序列。我们为继承的儿童同源物(重新组合)和属于子女同源物继承的父母单倍型的相应父母单倍型做到了这一点。

  接下来,我们使用R包装Decipher86(v.2.28.0;具有函数alignseqs)的三个序列(子亲属同源1和父母同源物2)创建了一个多序列对齐(MSA)(子亲属同源1和父母同源物2)。大小差异超过100 kb或它们的核苷酸频率的FASTA序列由于使用DECIPHER最佳地对齐如此不同的序列所需的计算时间而差异超过10,000个碱基。MSA构造后,我们选择了至少一个不匹配的位置,还删除了两个父母单倍型带有相同等位基因的位置。重组断点是一个遗传儿童同源物的区域,部分与来自父母同源物1和2的等位基因相匹配。因此,我们跳过了对MSA的分析,其中儿童等位基因与单个父母同源物相同的99%以上。如果传递此过滤器,我们使用自定义R函数getalleAghangePoints(代码可用性)来检测更改点,其中从父母单倍型1到来自父母单倍型2的等位基因的等位基因的匹配等位基因2的更改点。然后,从父母的单倍型2中。然后将这种MSA特异性的更换点报告为新的范围,其中重新组合可能会发生重新组合。最后,我们试图通过从断点边界提取1 kb长的K-mers来报告此类MSA特异性断点的参考坐标,并使用R软件包生物弦(V.2.70.2)及其功能“ MatchPattern”并允许使用多达10个MISMASTES,并使用R软件包生物弦(V.2.70.2)与参考序列(每个染色体)匹配此类K-MER。补充表8中报告了精制重组断点的清单。

  我们着手使用该家族的先前定义的重组图检测父母等位基因继承的较小局部变化。与G2父母相比,我们对所有G3样品(n = 8)进行了此分析。为此,我们对每个孩子的同源物进行了迭代(在每个样本中),并将其与两个父母的同源物进行了比较。我们通过比较从孩子和相应父母之间的分阶段基因组组件获得的SNV和INDEL调用来做到这一点。要仅考虑可靠的变体,我们仅保留了至少两个基于读取的呼叫者(deepVariant-Hifi,clair3-int或dragen-illumina呼叫模式)支持的变体。我们进一步保留了父母中杂合子的可变位点,并且在孩子中也被称为。经过如此严格的变体过滤后,我们一次通过两个连续的儿童变体滑动,并将它们与各自的原始父母的单倍型1和单倍型2进行比较。为了进行此相似性计算,我们使用自定义R函数Gethaplotypesimerity(代码可用性)。然后,对于由重组断点定义的每个单倍型段,我们报告区域至少有两个连续的变体与相对的父母单倍型匹配,与重新组合图定义的预期父母同源物相比。我们进一步合并了相距≤5kb的连续区域。对于推定基因转换事件的列表,我们仅保留了弗拉格(Flagger)尚未报告的区域。我们还从先前定义的重组事件和与centrameric卫星区域和高度相同的SD(≥99%相同)重组的事件中删除了≤100kb的区域。最后,我们通过视觉检查分阶段的HIFI读取评估了推定的等位基因转换事件的列表。

  PACBIO HIFI数据已使用GitHub(https://github.com/pacificbiosciences/hifi-hifi-hifi-human-wgs-wdl/releases/tag/tag/v1.0.3)上的Human-WGS-WDL处理。管道对齐,阶段和调用小型变体(使用DeepVariant87 v.1.6.0)和SVS(使用PBSV v.2.9.0; https://github.com/pacificbiosciences/pbsv)。我们使用了对齐的单倍型HIFI BAM进行所有下游PACBIO分析。

  Clair3(参考文献88)(v.1.0.7)分别基于与PACBIO HIFI和ONT(ONT_GUPPY5)数据的默认模型进行的对齐方式进行了变体调用,并启用了phasing和GVCF生成。分别对每个染色体进行了变体调用,并串联成一个VCF。然后,使用自定义配置文件将GVCF送入GLNEXUS89。

  pacbio hifi

  ont

  clair3调用的ONT读取与minimap2(v.2.21)与以下参数对齐:

  我们使用先前建立的框架来定义地面真理遗传变异13。我们的分析与基于三重奏的过滤相反,使用所有四个等位基因来检测基因分型误差,而在三重奏中,只有两个等位基因被传输和观察。通过测试第三代基因型模式对第一代(A,B,C,D)的分阶段单倍型的测试,我们可以测试从第二代到第三代等位基因的正确传输。我们建立了第三代(继承向量)的单倍型的地图,我们可以从中裁定变体调用。为了测试血统的一致性,我们实施了使用继承向量作为预期单倍型的代码,并测试查询VCF文件中可能的基因型配置。使用单倍型结构,我们将谱系一致的变体阶段。这些功能被实现为单个二进制工具,需要继承向量和标准格式的VCF文件,例如:

  github(https://github.com/platinum-pedigree-consortium/platinum-pedigree-inheritance)可在GitHub(https://github.com/platinum-pedigree-consortium/platinum-pedigree-inheritance)上获得谱系过滤和构建小型变体真相集的其他步骤。

  遵循以前概述的参数,我们使用GATK Haplotypecaller90(v.4.3.0.0)和DeepVariant87(v.1.4.0)和天真鉴定的每个G2和G3样品唯一识别的变体。我们分开了SNV和Indel调用,并应用了基本质量过滤器,例如在1 KB窗口中删除三个或更多SNV的簇。我们结合了由辅助调用方法(https://github.com/platinum-pedigree-consortium/platinum-pedigree-inheritance/blob/main/main/analyses/denovo.md)生成的一组变体调用。

  我们通过在HIFI,ONT和Illumina读取数据中检查SNV和Indels验证了它们,排除未能达到映射质量的读取(长读数为59,短读数为0)。具有高质量(> 20)和低基础质量的读取(<20) at the variant site were counted separately. We retained variants that were present in at least two types of sequencing data for the child, and absent from high-base-quality parental reads. For SNV calls, we next examined HiFi data for every sample in the pedigree. We determined an SNV was truly de novo if it was absent from every family member that was not a direct descendant of the de novo sample. Finally, we examined the allele balance of every variant, determined which variants were in TRs and re-evaluated parental read data across all sequencing platforms, removing variants with noisy sequencing data or more than two low-quality parental reads supporting the alternative allele (Supplementary Note 9).

  To determine the parent of origin for the de novo SNVs, we re-examined the long reads containing the de novo allele. First, we used our initial GATK variant calls to identify informative sites in an 80 kb window around the DNM, selecting any single-nucleotide polymorphisms (SNPs) where one allele could be uniquely assigned to one parent (for example, a site that is homozygous reference in a father and heterozygous in a mother). For every DNM, we evaluated every ONT and HiFi read that aligned to the site of the de novo allele and assigned it to either a paternal or maternal haplotype (if informative SNPs were available) by calculating an inheritance score as outlined previously10. DNMs that were exclusively assigned to maternal or paternal haplotypes were successfully phased, whereas DNMs on conflicting haplotypes were excluded from our final callset. Unphased variants were determined to be postzygotic in origin (n = 7) if their allele balance was not significantly different across platforms (by a χ2 test) and if their combined allele balance was significantly different from 0.5.

  once we assigned every read to a parental haplotype, we counted the number of maternal and paternal reads that had either the reference or alternative allele. We determined that a DNM was germline in origin if it was present on every read from a given parent’s haplotype. Conversely, if a DNM was present on only a fraction of reads from a parental haplotype, we determined that it was postzygotic in origin.

  To identify DNMs on the X chromosome, we applied the same strategy as autosomal variants, with one exception: we used only variant calls generated by GATK. For male individuals, we reran GATK in haploid mode, such that it would only identify one genotype on the X chromosome.

  To identify DNMs on the Y chromosome, we aligned male HiFi, ONT and Illumina data to the G1-NA12889 chromosome Y assembly and then called variants using GATK in haploid mode on the aligned HiFi data. We directly compared each male to his father, selecting variants unique to the son. We validated SNVs and indels by examining the father’s HiFi, ONT and Illumina data and excluded any variants that were present in the parental reads, applying the same logic that we used for autosomal variants.

  To determine where we were able to identify de novo variation in the genome, we assessed HiFi data for every trio. We first used GATK HaplotypeCaller90 (v.4.3.0.0) with the option ‘ERC BP_RESOLUTION’ to generate a genotype call at every site in the genome. only sites where both parents were genotyped as homozygous reference (0/0) were considered callable, as sites with a parental alternative allele were excluded from our de novo discovery pipeline. We then examined the HiFi reads from a sample and its parents, restricting to only primary alignments with mapping quality of at least 59. For children, we only considered HiFi reads derived from blood, but we considered blood and cell line data for parents. We counted the number of reads with a minimum base quality score of 20 at every site in the genome and then combined this information with our variant calls. A site was deemed to be callable if both parents and the child each had at least one high-quality read with a high-quality base call. We observed an average of 2.67 Gb of accessible sequence across the autosomes (out of 2.90 Gb total, s.d. = 24.9 Mb). For female children, callable X chromosome was determined in the same way, whereas, for the male children, we only considered the mother’s HiFi data when examining the X chromosome and the father’s HiFi data when examining the Y chromosome. Moreover, male sex chromosomes were not restricted to sites where both parents were genotyped as reference—each parent was allowed to carry an alternative allele.

  We calculated the germline autosomal mutation rate for every sample by dividing the number of germline autosomal DNMs by twice the number of base pairs we determined to be callable. For PZMs, we used the same denominator. In female individuals, the amount of callable sex chromosomes was defined as twice the number of callable bases on the X chromosome, and in males it was defined as the sum of the callable bases on the X and Y chromosomes. For each feature-specific mutation rate (such as SDs), we intersected both a sample’s de novo SNVs and the sample’s callable regions with coordinates of the relevant feature. We then calculated the mutation rate by dividing the number of SNVs in the region by the amount of callable genomic sequence where alignments could be reliably made.

  Given the challenges associated with assaying mutations in STRs (1–6 bp motifs) and VNTRs (≥7 bp motifs), we applied a targeted HiFi genotyping strategy coupled with validation by transmission and orthogonal sequencing.

  The command was used, resulting in a minimum reference locus size of 10 bp and motif sizes of 1 to 2,000 bp (https://github.com/lh3/TRF-mod)91. Loci within 50 bp were merged, and then any loci >10,000 bp被丢弃。用TR-Solve(https://github.com/trgt-paper/tr-solve)用TR-Solve注释其余基因座,以解决化合物基因座的基因座结构。仅考虑在1-22,X和Y染色体上注释的TR(数据可用性)。

  TRGT32是使用PACBIO HIFI测序读数(https://github.com/pacificbiosciences/trgt)进行基因分型TR等位基因的软件工具。带有对齐的HIFI测序读数(以BAM格式)和列举TR基因座集合的基因组位置和基序结构的文件,TRGT将返回每个TR基因座的VCF文件。在此分析中,我们使用上面定义的TR目录在CEPH 1463血统的每个成员上运行了TRGT(V.0.7.0-493EF25)。使用默认参数运行TRGT:

  为了确定TRS的一致性继承,我们计算了从TRGT的所有可能组合(Al)与母体和父亲AL值同时从TRGT的所有可能组合得出的曼哈顿距离。如果发现与所有计算距离的最小曼哈顿距离为0,我们认为一个轨迹是一致的,这表明概率的Al值的组合完全匹配了父母Al值。相比之下,如果曼哈顿的最小距离大于0,这表明概率的Al值的所有组合都表现出与父母Al值的偏差,我们认为该位点是不一致的,并将其记录为潜在的Mendelian遗传误差。对于每个TR基因座,我们计算了一致的三重奏,MIE三重奏的数量和缺失值且无法完全基因分型的三重奏数。计算一致性百分比时,排除了任何缺失基因型的基因座;但是,在下面的“从头访问”中考虑了单个完整的三重奏。

  由于几个原因,我们将从头tr命名为G3。首先,将他们的G2父母(NA12877和NA12878)测序为99和109 HIFI测序深度,而与具有更为适中的测序深度的样品相比,父母等位基因辍学的机会远低得多。其次,G1 DNA源自细胞系,在G2中调用DNM时增加了人工制品的风险。最后,可以通过传播进一步评估G3中有测序儿童的G3中两个人的DNM。

  我们使用HIFI测序数据(https://github.com/pacificbiosciences/trgt-denovo),使用了TRGT-denovo33(V.0.1.3)(v.0.1.3)(V.0.1.3),用于TRGT的伴随工具,对家族Trios进行深入分析。TRGT-Denovo使用TRGT产生的共识等位基因序列和基因分型数据,还包含了用于预测这些等位基因序列的HIFI读取中的其他证据。简而言之,Trgt-denovo的摘录和分区涵盖了每个家庭成员(母亲,父亲和孩子)的阅读,以至于他们最有可能的等位基因。父母跨性读数将与儿童中的两个共识等位基因序列中的每个序列进行重新调整,并为每个读取计算了对齐分数(总结父母读取和共识等位基因序列之间的差异)。在每个TR基因座上,两个儿童等位基因中的每一个都被独立视为假定的新候选人。对于每个儿童等位基因,Trgt-Denovo报告了从头事件的存在或不存在证据,其中包括以下内容:Denovo_coverage(支持子女中没有父母阅读中缺少儿童独特Al的读取数量);OVERLAP_COVERAGE(父母支持与假定的Novo等位基因高度相似的AL的读数);和假定的从头事件的幅度(表示为与最接近的父母等位基因相对于从头覆盖的读取对齐得分的绝对平均差异)。

  我们测量了最有可能经历收缩或扩张事件的父母TR等位基因相对于从头tr等位基因的大小。如果Trgt-Denovo在特定基因座报告了从头扩展或收缩,我们进行了以下操作以计算事件的大小。

  鉴于TRGT报告了三人组的每个成员,我们计算了孩子的大小(我们称为“差异”)与孩子父母的所有四个TR等位基因之间的差异(我们称为“差异”)。例如,如果TRGT在父亲中报道了100,100的ALS,母亲为50,150,则有200,100个孩子,据报道,该儿童的长度为200个等位基因为200名,父亲的差异为100,100,母亲为150,50。如果我们能够将从头等位基因与原始父母相位,我们只需确定父母的ALS之间的最小差异,然后将其视为可能的扩展/收缩尺寸。否则,我们假设所有父母ALS的最小差异代表可能的从头大小。

  我们将一系列过滤器应用于候选TR DNM(由TRGT-Denovo确定)以删除可能的假阳性。对于在儿童中观察到的每个从头等位基因,我们都需要以下(补充注释9和10):

  为了计算给定个体中的TR DNM速率,我们首先计算了TR基因座的总数(在使用TRGT的780万个基因分型中),这些总数被焦点个体三重奏组合中至少10个HIFI测序读数覆盖(即焦点个体和父母和他们的父母和父母)。然后,我们将从头TR等位基因的总数除以可可的基因座的总数,以获得总的DNM速率,该速率每一代人每个基因座表示。最后,我们将该速率除以2,以产生每个一代单倍型每个位点表达的突变率。如图3A所示,我们还估计了DNM速率是在基因座中观察到的最小基序尺寸的函数。例如,在(n)aga(n)t(n)上具有基序结构的基因座的最小基序大小为1。我们计算了在基因座的TR dNM的数量,其中n的最小基序尺寸为n,并将该计数除以TR loti的总数,其总数的最小基序尺寸通过了通过n个传递过滤阈值的n个基序尺寸。然后,我们将该速率除以2,以产生每个一代单倍型的每个基因座的突变率。当计算STR,VNTR和复杂突变速率时,我们将STR基因座定义为所有组成基序的基因座,在该基因座介于1至6 bp之间。我们将VNTR基因座定义为所有图案大于6 bp的基因座。我们将复合基因座定义为基因座,其中Str(1-6 bp)和VNTR(≥7bp)基序都有基因座。例如,A(n)基因座和AT(n)Aga(n)t(n)基因座都将被归类为Strs,因为它们都纯粹包含str基序。

  先前的研究通常测量了基因座的Str突变率,这些突变率是在感兴趣的队列中具有多态性的。为了产生与这些先前研究更加一致的突变率估计值,我们还计算了CEPH 1463谱系中多态性的STR基因座数量。如果在给定的TR基因座的CEPH 1463个个体中观察到至少两个独特的ALS,则将基因座定义为多态性。我们注意到,这种多态性STR的定义对同类的大小和用于基因型STR的测序技术都敏感。如先前的研究37所述,多态基因座的数量与同类的大小成正比。此外,通过将基因座定义为多态性,如果我们在整个队列中观察到多个独特的AL,则如果HIFI测序读数在这些基因座上显示出大量的口吃,则可能会错误地将基因座分为多态性,从而在各个个体中产生str ALS的可变估计值。总共1,096,430个STR在队列中是多态性的。为了计算每个G3个体中的突变率,我们应用了与上述相同的覆盖质量阈值。

  使用hiphase92(v.1.0.0.0.-f1BC7A8)逐步逐步逐步逐步逐步逐步分类。我们遵循HIPHase的指南,通过将相关的VCF文件从DeepVariant,PBSV和TRGT输入HIPHase,从而共同逐步缩小小型变体,SV和TR,从而为每个分析的样品提供了三个分阶段的VCF文件。我们还通过参数激活了全局重组,以提高等位基因分配的准确性。请注意,HIPHASE专门排除了完全属于基因分型STR中的变体。这是有动力的,因为STR通常包含许多较小的变体。

  我们使用了HIPHase推断出的分阶段基因型来确定从头扩张和收缩的原始父母。对于我们在一个孩子中观察到的每个阶段的从头等位基因,我们检查了从头等位基因的孩子父母±500 kb中的所有信息SNV。我们使用以下标准定义了信息网站:站点必须是双重SNV;母亲,父亲和孩子的全部阅读深度必须至少10读;母亲,父亲和孩子的Phred量表基因型质量必须至少20岁;孩子的基因型必须是杂合的;父母的基因型一定不能逐个状态相同。然后,我们使用孩子的分阶段SNV VCF,然后确定在信息网站上的孩子的裁判或Alt等位基因是从母亲还是父亲那里继承的。例如,如果母亲的基因型为0/0,则父亲的基因型为0/1(请注意,父母的基因型不需要分阶段),并且孩子的基因型为1 | 0,我们知道孩子的第一个单倍型是从父亲那里遗传而来的,第二个单倍型是从母亲那里继承的。我们为±500 kb间隔内的所有信息站点重复此过程。然后,我们找到(1)最接近从头等位基因(上游或下游)的n个信息网站,而(2)支持孩子中的一致继承模式(即,所有这些都支持与儿童的两个单倍型的同一原始父母),并且(3)均在同一Hiphase相位块中使用同一Hiphase相位块(使用同一Hiphase相位块(使用hiphase bass)(使用ps in the hipf in the hipf)infucf in hipf in hipf in hipf)最后,我们使用HIPHASE生产的分阶段TR VCF来检查从头等位基因是否被逐步逐步划分为儿童的第一单倍型或第二个单倍型。然后,我们确认从头等位基因具有与上面确定的信息网站相同的PS标签,并使用n个信息的站点来确定从头等位基因被分阶段的单倍型可能是从母亲还是父亲继承的。

  在每个候选人de TR TREREL中,我们计算了TRGT估计的从头AL与元素,ONT或HIFI读取的ALS的一致性。我们将一致性分析限制为具有单个扩张或收缩的常染色体TR基因座(也就是说,我们没有分析包含多个独特扩张和/或收缩的“复杂” TR基因座)。

  TRGT报告了常染色体TR基因座的每个三重奏成员的两个AL估计值,而TRGT-Denovo将这两个ALS之一分配为儿童中的新生。在每个TR基因座,我们计算了参考基因组(基本对)中的基因座的长度与给定个体中的两个ALS之间的差。我们将TRGT Al和参考基因座大小之间的差异称为相对Al。然后,我们查询包含元素,Illumina,ont或pacbio hifi的BAM文件在每个TR基因座上读取。使用PYSAM库(https://github.com/pysam-developers/pysam),我们在所有读取中进行了迭代,这些读取完全跨越了tr基因座,并具有60的映射质量。估计tr扩展/收缩的Al在与参考基因组中读取的读取中的Al a a al able,我们数量与每个核纹料相关联,这些位置与烟气相关联,这些烟雾均与烟气相关联。例如,元素读取可能具有以下雪茄字符串:。对于与TR基因座重叠的每个雪茄操作,我们通过一个计数器增加了一个计数器,其中等于“匹配”雪茄操作,“插入”操作以及“删除”操作,并等于与给定雪茄操作相关的基本对数。因此,在每个TR基因座上,我们在每个三重奏的每个成员中都产生了净雪茄作战的分布。

  我们使用这些净雪茄操作来验证每个孩子中的候选者。对于每个从头tr等位基因,我们计算了支持TRGT估计的从头读取的儿童中读数的数量(允许该元素读取支持从头支持NOVO AL±1 BP)。然后,我们计算了该孩子的父母支持从头支持的元素读数(也允许逐一错误)。如果至少有一个读取的元素支持从头开始的孩子,而零元素读取的元素在父母双方的双方中支持了从头开始,那么我们认为从头tr得到了验证。

  为了组装自信的候选者循环列表,我们首先组装了TR Loci的列表,其中两个或以上的CEPH 1463个人(在G2,G3或G4中)藏有新的TRElele的证据。对于每个候选基因座,我们要求将CEPH 1463血统的所有成员均在基因座的TR等位基因中进行基因分型,并在该基因座至少有10个对齐的HIFI读数。这些过滤器产生了49个候选基因座的列表,我们观察到了基因内或代际复发的证据。我们在视觉上检查了HIFI使用综合基因组观察者(IGV)93以及HIFI雪茄操作的定制图,以确定候选者DE NOVO TR等位基因是否似乎是合理的。

  我们试图从三种不同来源获得假定的SV。第一个基于从基于读取的呼叫(pbsv(v.2.9.0),sniffles94(v.0.12.0),sawfish95(v.2.2))的“读取呼叫”(v.2.9.0),sniffles94(v.2.2))的报告。第二个报道从称为基因组组件中的变体中提出的从头开始。由分阶段基因组组件构建的最后使用的pangenome图报告从头报告。

  通过使用WFMASH(v.0.13.13.13.1-251F4E1)pangenome pangenome pangenome pangenome Anigner,通过染色体对GRCH38,T2T-CHM13和HG002(v.1.0.1)映射的VERKKO组件通过染色体进行映射。在每组重叠群上,我们应用了PGGB(V0.6.0-87510BC)来构建具有以下参数的染色体级无偏的pangenome变异图96:。我们使用变体图Toolkit97(V.1.40.0)来调用图形相对于T2T-CHM13和GRCH38参考基因组的变体。然后,通过将VCFBUB(V.0.1.0.0-26A1F0C)施加到固定在用作参考的基因组上的顶级气泡中,而VCFWAVE(V.1.0.3)将变体分解,以保留在顶级气泡中发现的那些,以跨样品均化SV表示。随后,RAW VCF文件被用作基于谱系的NOVO SVS过滤的输入。

  使用BCFTools(v.1.17) +填充标签进行过滤DE SVS,然后在所有样品带有基因型调用的位点过滤单位衍生的等位基因的关节vCF。通过考虑所有G2/G3家庭成员(不仅仅是三重奏),我们提高了从头SV的特异性。我们使用了命令行:

  ||

  使用分阶段基因组组件和长阅读比对进一步评估了从基因组所有区域收集的所有候选者。补充说明10中提供了更多详细信息。

  我们首先在NA12887的Novo Verkko组装中提取了一个插入的SVA元件(母体单倍型,单倍型1)。接下来,我们使用以下报道的参数使用minimap2(参考文献80)(v.2.24)将这〜3.4 kb长的DNA与母体和父亲Verkko组件对齐与母体和父亲Verkko组件对齐:

  使用这些参数,我们报告了该DNA段的所有位置。我们将假定的捐赠者站点定义为在母体单倍型中的对准位置,该位置几乎与Sva de Novo Insertion具有完美匹配。

  为了确定每个基因组组装中的完全,准确组装的中心粒,我们首先使用MiniMAP2(参考文献80)和以下参数对T2T-CHM13参考基因组和T2T-CHM13参考基因组和T2T-CHM13参考基因组和T2T-CHM13参考基因组1对齐。然后,我们将整个基因组比对仅针对与T2T-CHM13参考基因组中的丝粒对齐的重叠群。我们检查了这些中心粒子重叠群是否通过检查它们是否包含来自p-和Q臂的序列,并在直接与centromere相邻的区域中包含序列。然后,我们通过使用PBMM2(v.1.1.0; https://github.com/pacifificbiosciosciences/pbmm2)和下一批命令来验证了同一命令:,并评估了众议员的组合,我们通过将天然PACBIO HIFI数据从相同的源基因组到每个全基因组组装来使中心区域的组装从相同的源基因组到每个整个基因组组装来验证。(v.0.1)。我们还使用MiniMAP2(v.2.28)将天然ONT数据> 30 kb对齐> 30 kb,从相同的源基因组到每个全基因组组装,并使用IGV Browser93评估了整个中心层面区域均匀读取深度的组件。

  为了识别每个中心区域内的从头SV和SNV,我们首先使用miniMAP2和以下参数将每个孩子的基因组组装与相关父母的基因组组装对齐:。然后,我们使用所得的PAF文件使用SVByEye85(V.0.99.0)识别从头svs和SNV,将我们的结果滤光到只能完全准确地组装的那些中心粒子。我们使用nucfreq,flagger9和本机ONT数据检查了每个SV和SNV调用,以确保支持每个调用的基础数据。补充注释9和10中提供了更多详细信息。

  我们使用串联重复s(TRF)91处理了所有G1,G2和G3组件,以确定每个组装好的重叠群的远端区域内的规范端粒重复(P-ARM,CCCTAA; Q-ARM,TTAGGG)的存在;TRF(v.4.09.1)以参数运行:,为YOUNG(在此上下文中,未替代)重复序列(v.4.1.6)中实现。反过来,将组装的重叠群与T2T-CHM13参考与MiniMAP2(参考文献80)(v.2.24)进行对齐,以建立每个序列的身份(即,给定的重叠群是代表整个参考染色体还是该序列的一部分,以及它是否应为其反复构成的代表)。建立身份后,TRF注释从外部爬行(从p臂上的5'端,从Q臂上的3'端开始,关于minimap2报道的反向互补性,直到遇到规范重复;还保留了非散文重复序列的发生率。

  此外,将PACBIO HIFI读数映射到重叠群,以评估每个组装的每个区域的读数(覆盖深度);掩盖了少于五个HIFI读取的远端区域。在所有G1,G2和G3样品中,非官方染色体的终止,74.2%的Verkko组装(在所有参与者中可能有1,204个中的893个中,有893个)发现在规范的端粒重复中终止了终止(从范围内终止或直接覆盖,或者是在重复的范围内,或者是在重复的范围内,或者是在重复的范围内,以至于终止了该区域的范围,以至于终止了该区域的范围,以至于终止了该地区的延伸,以至于终止了该地区的范围,以至于终止了该地区的延伸,以至于终止了该地区的范围,以至于终止了该地区的范围,以至于终止了范围的范围。5,608 bp(补充表3)。此外,从回收P和Q端粒末端的T2T-CHM13染色体中,从P端粒到Q端粒的单个组装重叠群,每个组装的重叠群都代表了64.6%(342个中的221个)。

  G4 Hifiasm组件以相同的方式处理;however, only 56.8% of the telomeric regions (342 out of the possible 602) were recovered (Supplementary Fig. 3) with a median length of the canonical repeat being 4,674 bp (Supplementary Table 3; same as for G1–G3), and the contiguity was markedly worse: only one chromosome (chromosome 9 in haplotype 1 of individual G4-200101) was verifiably spanned通过单个重叠群(H1TG000017L)。

  为了确定每个中心的CPG甲基化状态,我们使用sup-prom模型和dna_r9.4.1_44.1_450bps_modbases_modbases_modbases_5hmc_5mc_sup_sup file。接下来,我们使用minimap2(参考文献80)(v.2.28)将每个样品的ONT数据从每个样品与各个基因组组装对齐,并与以下参数相提并论:-ax lr:-ax -hq -y -t 4 -i 8 g。我们使用modBam2bed(https://github.com/epi2me-labs/modbam2bed)将所得的BAM文件转换为床甲基文件,并将以下参数转换为:-e -m 5MC -CPG -CPG -T {threads} {input.bam}> {input.bam}> {upputs.bed}。接下来,我们使用以下命令将床甲基文件转换为床上图:awk'begin {ofs =“”};{打印$ 1,$ 2,$ 3,$ 11}’{input.bed} |grep -v“ nan” |排序-k1-1 -k2,2n> {output.bedgraph},随后使用Bedgraphtobigwig(https://wwwwwwwwwwwwwwwww..encodeproject.org/software/bedgraphtobigwig/)将床图转换为Bigwig,然后使用Bigwig Files进行了bigwig Files,并使用集成基因组vieferative Genomics vieverevign.63,93,93,93,98(v.16)。为了确定每个中心中低甲基化区域的大小(称为CDR2,39),我们使用CDR-Finder(https://github.com/arozanski97/cdr-finder),首先将床架固定在5 kb窗口中,以中位数CPG甲基化的频率(由Windows cpg甲基化频率)(按照α-S-SATERNITE(α-SAST)的重复频率(如α-SATELITE)(α-SAST)。(v.4.1.0)),选择比该区域中位频率较低的CpG甲基化频率的垃圾箱,将连续的垃圾箱合并到较大的垃圾箱中,过滤量> 50 kb的合并垃圾箱,并报告这些箱的位置。

  Y-染色体系统发育的构建和日期在58个样本中,将当前研究中的14个谱系雄性与44个个体结合在一起,以前已经发表了基于长读的Y组件,如前所述。简而言之,使用大约10.4 MB的Y染色体序列,以前定义为SRS100可访问的大约10.4 Mb的Y-染色体序列,从Illumina高覆盖数据14调用了所有位点。使用BCFTools101,102(v.1.16),最低基础质量20,映射质量20和ploidy1。SNV在Indel呼叫(SNPGAP)的5 bp之内(SNPGAP)(SNPGAP),然后删除所有Indels,然后过滤所有呼叫,以最低读取深度为3,并要求将≥85%的阅读范围覆盖为涵盖Genotypeipe的阅读范围。VCF与Ref的类似过滤VCF合并。52使用BCFTools,然后使用VCFTOOLS103(v.0.1.16)删除了≥5%失踪呼叫的位点,即58个样本中的3个以上缺失。过滤后,总共剩下10,404,104个站点,包括13,443个变体位点。

  预测每个样品的Y单倍体如前所述104,并对应于国际遗传谱系术语学会(ISOGG; https://isogg.org; v.15.73)。使用BEAST105(V.1.10.4)实施的基于合结的方法来估计内部节点的年龄。带有GTRGAMMA替代模型的RAXML106(V.8.2.10)用于为野兽构建最大样本的系统发育树。马尔可夫链蒙特卡洛样品基于2亿迭代,每1000次迭代记录,前10%的迭代被丢弃为燃烧。一个恒定大小的合并树先验,GTR替代模型,占场地异质性(伽马)和严格的时钟,其基于替代率的95%CI(0.76×10-9(95%CI = 0.67×0.67×10-9-0.86×10-9)单核替代属于每底套的单层均配对。使用树木通知器(V.1.10.4)产生摘要树,并使用Figtree软件(V.1.4.4)可视化。

  Y-染色体DNM的详细分析集中在七个男性(R1B1A-Z302 Y Haplogroup,G1-NA12889,G2-NA12877,G3-NA12882,G3-NA12882,G3-NA12882,G3-NA12884和G3-NA12884和G3-NA1286)中的percteco,verke的verko是verke的verko,如前所述52,鉴定了含有X型和Y染色体序列的重叠群,并从整个基因组组件中提取并提取。此外,通过将T2T-CHM13参考基因组的各个序列与这些组件对齐相应的序列,使用Minimap2(v.2.26)来确定来自G1祖母NA12890和G2母亲Na12878基因组组件的假祖体区域(V.2.26)。

  如前所述52,使用GRCH38和T2T-CHM13 y参考序列进行了Verkko组件的Y染色体子区域的注释。使用默认参数的repotMasker99(v.4.1.2-p1)鉴定了y子区域注释的centromericα-瑞典重复序列。使用HMMER108(v.3.3.2DEV)生成YQ12重复注释,该注释与已发表的DYZ1,DYZ2,DYZ2,DYZ18,2K7BP和3K1BP序列52生成,然后手动检查重复单位方向和距离距离。使用Gepard109(v.2.0)生成了比较Y染色体序列的点图。

  人类Y染色体在重复区域的大小和组成上有很大不同,包括T2T-CHM13 Y(单倍群J1A-L816)和R1B1A-Z302单倍型Y染色体,由七个谱系男性携带(补充注释6)。因此,G1祖父NA12889的Y组装被用作DNM检测的参考。使用DIPCALL82(v.0.3)的雄性,从五个G2(Na12877)和G3(Na12882,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12883,Na12882(v.0.3)中)调用DNM。仅从MSY中鉴定出变体,即,从该分析中排除了伪体区域。所有已识别的变体均过滤如下:任何变体调用与弗拉格或nucfreq在参考或查询组件中标记的区域重叠。

  对于SNV,最终的过滤呼叫得到了100%的HIFI读取(也就是说,在父亲中没有支持参考等位基因的参考等位基因或父亲中的替代等位基因),并且ONT读取映射到参考文献和每个单独的组件都被检查。

  对于indels(≤50bp),将均聚物区域排除在分析之外,而其余的调用使用读取数据(HIFI,ONT,Illumina)进行了验证,如下所示。使用subseq(https://github.com/eichlerllab/subseq)从所有样品中提取了映射到参考(G1 NA12889 y组装)并覆盖Indel Call Plus 150 bp侧翼序列的个人读取,然后使用MAFFT110,11111111111(V.7.508)与Default affeart afterers进行一致性。所有对齐都均已手动检查,并删除了HIFI数据具有两个或多个读取的任何呼叫,支持参考等位基因,并删除了一个或多个支持替代等位基因的读取。Illumina和元素读取数据均映射到参考文献。

  对于所有SV调用,HIFI读取深度以供参考和替代等位基因可视化,并且在区域中显示了高水平的读取深度变化的区域,与SNV的簇一致,> 10%的读取量支持替代等位基因。HIFI和ONT读取映射到参考和各个组件的映射以获得支持。

  对于所有变体,证实了与世代相传的预期传播的一致性。此外,检查了三个G4雄性个体(200101、200102和200105)的HIFI数据以获得确定变体的支持。

  根据每个Y组装的可访问区域计算基于组装的DNM速率(即删除了Flagger和/或NucfReq标记的任何区域)。

  使用XTEA112(v.0.1.9)对PACBIO HIFI读取进行了移动元素分析。使用IGV可视化使用XTEA鉴定的潜在的非参考移动元件插入(MEI),以确保在测序读取中可以识别插入,并确定这些事件是否从头开始。使用BedTools113,我们将非引用插入与内含子,外显子,5'-UTR和3'-UTR相交,来自T2T-CHM13。为了识别非参考线1插入的潜在源元素,我们使用Blat114在T2T-CHM13参考基因组中找到最佳匹配插入。如果参考基因组中有多个具有相同分数的匹配,则不会调用源元素。代表已知ALU,L1和SVA亚类的MEI序列是从以前的Work115,DFAM116和UCSC基因组浏览器中获得的。每个MEI类的参考和新序列都合并为特定类别的文件。将序列定向到链。去除高度截断的序列。使用Muscle117(V.3.8.31)对齐器对齐MEI序列。使用Kimera两参数方法计算MEI序列之间的成对距离,然后转换为相关。主成分是通过成对相关矩阵的特征值分解获得的。绘制了前三个主要成分,以可视化非参考MEI和已知的MEI亚家族序列之间的关系。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。