澳大利亚土著基因组显示出深层的结构和丰富的新颖变化

2025-06-23 10:57来源:本站

  该项目中分析的DNA样品构成了包括历史收集的样品在内的一部分,包括NCIG11在澳大利亚国立大学(ANU)的John Curtin医学研究院的土著治理下维持的。NCIG是ANU内部的法定机构,成立于2013年,受国家土著基因组法规中心的约束(2016年,更新,2021年)。该联邦政府法规要求NCIG董事会中的大多数原住民和托雷斯海峡岛民代表,以确保对中心决策过程和活动的土著监督。董事会是NCIG藏品的保管人。

  对于这个项目和未来的工作,进行了适当的社区参与56。NCIG与传统所有者,社区长者和其他社区代表互动,以告知社区有关这项研究的信息。这涉及与夏尔服务经理的联系,与社区利益相关者进行询问,安排口译员,提前促进访问并准备外展材料,包括普通语言项目摘要和同意书。

  最初的工作着重于向社区通报历史收藏的存在,并寻求有关其持续维护和可能未来使用的建议。在此过程中,NCIG在同意书(见下文)中寻求并收到我们与现任社区成员的新样本或唾液样本(其中一些是历史集合的一部分)。这些新样本构成了本文分析的数据集的基础。

  通过社区联络官,官方翻译服务,当地社区翻译人员和视频动画传达了机密协议,项目信息和同意表格,向当地社区组织,社区领导者和参与者传达。在2015年至2018年之间,所有个人在社区访问期间均提供了知情的个人同意。

  本文中包含的结果返回了社区和所有参与者,使用了本手稿和讲习班(两个待定)的最终草案的平淡语言摘要。社区联络官曾经并且可以从所有参与者和社区成员那里提出问题。想要它的人也可以使用本文的草稿。

  这项工作是根据2015/065 ANU伦理协议和墨尔本大学伦理协议1852770进行的。其他详细信息在补充注释1中。

  队列中的个体提供了提取DNA的血液或唾液样本。基因组DNA定量,文库制备和测序由Kinghorn临床基因组学中心(澳大利亚悉尼)进行。测序是在Illumina hiseqx上进行的,其150 bp配对的末端读取至最小读取深度为30倍。在60个Papuan样本的许可下获得了FASTQ文件1,5。

  读取映射和变体调用是在补充注2中详细介绍的,以生成NCIG+PNG常染色体数据集。根据需要,该数据集与低覆盖范围的1000基因组数据集14和/或Simons基因组多样性面板(SGDP)6(国际基因组样本资源(IGSR)集合的子集相结合;来自巴布亚人口的SNP阵列数据57;以及高覆盖率(HC)1000基因组数据集18(请参阅补充注2)。

  从五个血液样本中提取高分子量的DNA,在KCCG处用铬10倍测序,并使用长游侠WGS软件包进行处理,以生成用于评估量相准确性的单样本分阶段变体呼叫格式文件。

  使用ShapeIt(v.2.12,默认参数)58使用低覆盖1000个基因组参考面板和相位信息读取59进行定相。链接的阅读数据用于估计开关错误率60,并选择最佳的相位策略(补充注释2)。

  使用混合物(v.1.3)32在与低覆盖范围1000基因组数据集相交后,在NCIG+PNG数据集中估算了全局祖先比例。k在交叉验证模式下从2到12变化,祖先比例在k = 6处推断,并通过主成分分析61,f4 ratios36和rfmix62验证(补充注释2)。

  使用RFMIX(v.1.5.4)推断出本地祖先,其中包括NCIG+PNG数据集的个体参考面板,推断为主要具有土著祖先(补充注释2)和欧洲,东亚,南亚,南亚和非洲人的个人。确定了每个人的基因组坐标,其中一种或两个单倍型既不是澳大利亚本地的,也不是巴布亚人的血统,在床格式中产生了“蒙版”坐标文件,并且在这些区域中具有变体呼叫的VCF文件。面具用于保留单倍型具有澳大利亚土著或巴布亚人血统的基因组的所有区域,并删除了所有其他地区。我们将此数据集称为NCIG+PNG(蒙版)。使用F4比率,混合和主组件分析验证了此掩蔽管道,并具有特征性软件包的“ LSQProject”功能(Eigensoft v.7.2.1)61。对于未在随后的分析中未考虑的五个人的掩码,该面具去除了超过95%的基因组。

  使用King63鉴定出150个无关的个体(97个澳大利亚人和53个PNG),最多的二级亲戚(即没有二级亲戚或更亲密的亲戚),并使用KING63鉴定出具有“无关”和“ - 基准2”选项的NCIG+PNG DataSet(无祖先封装)。对种群结构的下游分析显示,从该150子集的八个TIWI样品聚集到与一个或多个祖先相一致的模式,这些祖先是非TIWI本地祖先的(指定的“ Tiwi Outliers”;另外两个“ Tiwi Outliers'”与相关性过滤器(补充指标指定2))。除非另有说明,否则所有主要分析均在此祖先掩盖,无关和非外观的子样本上进行,其中包括142个样本:89个来自NCIG系列(34 Tiwi,31 Yarrabah,17 Galiwin’ku,7 titjikala,7 Titjikala)和Png(25 Highland Png,28 Highland png,28 Inland Png)的53。进行比较,参考。1分析了69个具有相似约束的澳大利亚样本。

  为了评估变异共享,NCIG+PNG(屏蔽)数据集与高覆盖1000个基因组数据组数据集合合并(都进行了等效的数据处理,包括在99.8时在99.8进行的变体质量得分重新启动过滤),使用plink' - bmerge'command64 and removing ofer'和removing site''''''''''

  变体被分配给以前定义的四个非重叠类别之一14;在单人群样本中观察到(“人口私人”);在一个大陆内的多个人群样本中观察到(“大陆私人”);在几个(但不是全部)大洲(“在某些大洲共享”)中观察到;并在各大洲观察到(“在各大洲共享”)。

  为了允许公正的比较,每个人口样本仅限于五个不相关的个​​体,使用plink“ - keep”命令(Yarrabah和Island Melanesia(PNG)(png(is。))仅限于五个最不可值的无关个体)。鉴于相关性的潜力降低了这些子样本的变化水平,我们证实,Galiwin’ku,Tiwi,Tiwi,Titjikala和PNG(HL)中没有成对的个体具有可检测到的相关性,最高为第四级(Algorithm King Algorithm确定的最大阈值)。从Yarrabah和Png(IS。)获得一部分不相关和未混合样品的子集的困难需要将两对来自Yarrabah的三级亲戚。

  使用Plink“ -FREQ”命令生成了按人口和大陆分层的等位基因频率报告(图1A,B)。This analysis, with equal sample size of n = 5, is shown for all populations of the 1000 Genomes dataset in Supplementary Fig. 1a and was repeated on the full dataset (that is, without subsampling individuals) both with ancestry masking (Supplementary Fig. 1b) and without (Supplementary Fig. 1c) and on versions of the masked dataset filtered to a sample size of n = 15 and n = 25 unrelated samples per population(补充图1d,e)。

  在子集中仅分类为“致病性”,Clinvar中的“可能的致病性”或“药物反应”(第20230514条;补充图1F)以及子集中在Type 2型糖尿病相关的基因中列出的第2条和参考文献2的非同类变体后,对上述分析进行了重复。23(补充注释3)。这些基因的坐标是从Gencode释放37(GRCH38.P13)中获得的,并使用VEP65鉴定了NCIG+PNG+1000 G(高覆盖)数据集中的NCIG+PNG+1000 G(高覆盖)数据集。

  使用上述数据集中使用Plink“ - recode”命令定义了次要等位基因(仅限于每个人群样本的五个个体),在该命令中,在其中指定了针对整个数据集的次要等位基因。使用Plink“ -FREQ”命令记录了人群样本中的等位基因计数,并从计数1(在一组10单倍型中看到一次)到10(样品中的固定)(在样本中固定)到生成的等位基因频率图(图1C)。

  祖先掩蔽(NCIG+ PNG(NCIG+ PNG(掩盖)+高覆盖1000个基因组)之后,从完整数据集产生了杂合位点的每个个体计数,并重新确定了值的值,以说明每个样品中每个样品中基因组备忘组的比例(图1D中的开孔)。对于除土著血统以外的祖先超过5%的个体而言,这些值也是由未掩盖的数据集(NCIG+PNG+高覆盖1000个基因组)产生的(图1D中的破折号)。

  Phenotypic impact was predicted for amino acid substitutions in the full dataset (both unmasked and masked) using the VEP ‘--sift b –polyphen b –custom ClinVar_20200210/clinvar.vcf.gz,ClinVar,vcf,exact,0,CLNSIG,CLNREVSTAT,CLNDN –coding_only’ command.SIFT评分小于0.05的氨基酸取代被认为是潜在的功能24,并且每个个体计数此类纯合非参考位点的数量。未掩盖和重新验证的值如上所述(图1E)。还计算了“致病”临床注释(补充表1)。

  使用bcftools roh66(v.1.11,默认参数)估算了大于1兆巴(MB)的ROH片段及其长度的总和,估计了高png+png+高覆盖1000个基因组数据集(图1F和扩展数据图1B,c)和分别用于SGDPDPDP。鉴于我们对每个个体ROH都感兴趣,无论最近的祖先如何,都使用未掩盖的数据。除土著血统以外的祖先超过5%的人在图1f中显示为破折号。为了进行比较,我们在扩展数据中显示了来自SGDP数据集的个体,其中最极端的ROH(及其人口样本)图1C。

  计算观察到的多态性位点的数量是因为使用NCIG + PNG(掩盖) +高覆盖1000个基因组数据集逐渐增加了样本量。Yarrabah和Png(IS。)不包括​​在于土著血统以外的其他祖先,并且仅包括其他人口掩盖祖先少于5%的无关个体。使用Plink“ -freq”命令和自定义Unix脚本获得分离位点的计数,因为样本量从1逐渐增加到35,平均为十个重复(图1G)。

  鉴于所有其他大陆已经被采样,在一个大陆上观察到的新变化水平估计了同一数据集,并重新引入了来自Yarrabah和Png(IS。)的不相关个体,而较小的祖先却被掩盖了25%(来自Yarrabah的四个个体和PNG的两个个体)。这种不太聪明的临界值确保了每个大陆包括类似数量的人口。将种群汇总到大陆群中,并在第一次对其他五大洲的每个洲中的80个个体逐渐增加了80个个体,平均取十个复制品后,观察到的进一步多态性位点的数量被评分为逐渐增加(图1G)。

  使用次要等位基因频率校正的协方差(COV)33,61(扩展数据图2A)估算成对遗传距离,该协方差(V.1.9)64;稀有等位基因共享(图2D),由等位基因计数定义小于或等于NCIG+PNG(所有个人)数据集中的5;和成对外群F3使用AmbixTools(v.5.1,默认设置)36(扩展数据图2B)。对祖先进行了掩盖,并将分析仅限于每个成对比较中而没有缺少数据的站点;完整的详细信息在补充注释4中。

  使用相关性过滤的r67统计量r67的统计数据包的HClust()函数进行层次群集(图2B)。

  使用所有样品(扩展数据图3)和相关性过滤后(图2C)应用于NCIG+PNG(掩盖)数据集(图2C),将混合算法32应用于NCIG+PNG(掩盖)数据集。K从2到8变化,交叉验证支持K = 4和K = 5(补充注释4)。

  精制算法(V.102)68用于推断NCIG+PNG(蒙版)数据集中的个人对之间的IBD区域共享(图2D)。删除了数据集中严格少于8的次要等位基因的变体。使用默认设置,包括1.5厘米的阈值作为最小IBD段长度。由于每个成对比较中掩盖了掩盖基因组缺失的比例,因此对数量进行了重新计算。

  在参考文献的方法之后,使用r(v.5.1)中的cmdscale(v.5.1)中的cmdscale()函数将多维缩放(MDS)应用于COV矩阵。69(扩展数据图2C)。

  UMAP(V.0.2.7.0)70按参考。34到由COV矩阵产生的MDS输出的前十个组件(图2E)。

  详细信息(v.4.0.1)31,33是针对无关的个体进行的,除了来自NCIG+PNG(未掩盖)数据集的本地血统以外,没有其他可见的祖先(未包括Yarrabah的个人,没有包括Yarrabah的个人,因为没有丢失的数据;图2F和Extended Data Data;请参阅图4;请参见图4;请参阅图4;有关完整详细信息)。

  为了使在土著海洋人群中观察到的结构水平,将层次聚类,混合和精制算法应用于1000个基因组数据集的其他大陆同类群(补充注释4)。

  使用NCIG+PNG(蒙版)+1000 g(低覆盖范围)+SG数据集计算了澳大利亚和PNG总体样本以及SGDP的成对FST。使用本特征软件包61计算FST。为了提供FST71的无偏估计量,将数据集过滤到SGDP集合的MBUTI种群中多态性的位点的子集。结果显示在扩展数据图7中。

  使用NCIG+PNG(蒙版)+1000 g(低覆盖)数据集计算F统计数据,其中包含其他数据集如下所述。除非另有说明,否则使用默认参数的Yoruban(YRI)群体,使用Yoruban(YRI)种群来计算所有F统计数据,除非另有说明,否则使用了默认参数。

  使用统计F3(YRI; PNG,NCIGX)估算每个澳大利亚样本和一系列巴布亚样本之间共享的遗传漂移程度。这里的“ PNG”是参考文献中描述的25个高地PNG样品的面板。1和“ ncigx”代表每个被评估的澳大利亚本地人。该统计数据的显着更高的值表明,相对于其他人群,人口与PNG具有更多的遗传漂移(图3A和补充注释4)。

  F4(t)形式的F4统计量(YRI,PNG; X,Y)72用于推断澳大利亚人群和PNG对之间的不同程度的共享遗传漂移程度。人口命名法如上所述,“ X”和“ Y”代表Tiwi,Galiwin’ku,Yarrabah和Titjikala的所有成对组合中的样本集。正如标准72一样,我们将大于绝对值3的z得分定义为显着,这意味着y与png共享比x(正分数)更多的漂移。

  要确定来自南亚,东亚或大洋洲的人群是否与Titjikala以及Tiwi或Tiwi或Galiwin’ku共享相同程度的遗传漂移,在包括Sgdp(sypemiia sepledare assia assia assia assia assia assia)上,计算了形式(Asia-Y,YRI; Australia-YRI; Australia-YRI; Australia-YRI; Australia-X,Titjikala)的F4统计数据,大洋洲;“澳大利亚-X”是Tiwi或Galiwin’Ku样本(图3B;补充注释4中给出了更多细节和理论上的理由)。

  使用PNG持有的F3形式的F3(AUAX; PNG,AUAY)的F3统计量用于评估澳大利亚三个北部人口(TIWI,Galiwin’Ku和Yarrabah)是否可以归因于最近与Papuan相关的混合物。在这里,“ PNG”代表25个高地巴布亚人,“ Auax”和“ Auay”代表Tiwi,Galiwin’Ku,Titjikala和Yarrabah之一。有大量证据表明,如果统计数据小于-3(扩展数据图8C和补充注释4),则种群“ AUAX”最近收到了与“ PNG”和“ AUAY”相关的人口的祖先贡献。

  To test whether the additional genetic drift shared between Papuan populations and Tiwi (relative to Titjikala) was uniform across Papuan groups, we incorporated single-nucleotide polymorphism array data from PNG57 and compared the outgroup F3 statistics F3(YRI; Tiwi, PNG-X) to F3(YRI; Titjikala, PNG-X) (Supplementary Notes 2 and4)。

  我们使用ABC评估一系列人口拓扑。确定了七个合理的拓扑结构,并使用MSPRIME(TSKIT版本中的V.1)模拟了50,000次数据集38,73。计算了以下摘要统计数据:F3和F4统计,每个F3和F4统计量的第二和第三矩,Tajima的D,核苷酸的多样性以及分离位点的数量。统计信息是使用TSKIT软件包直接从树序中计算出来的(开发版本,自从v.1.0发布以来)74。使用AmbixTools36和Plink64在NCIG+PNG数据集上计算了相同的摘要统计信息。我们检查了以相同的方式计算统计信息,并使用所有软件返回相同的值。ABC –兰多姆森林模型75用于推断最可能的情况和估计模型参数(补充注释5)。

  Pairwise IBD tracts were inferred using RefinedIBD (v.102)76, and recent effective population sizes were inferred using IBDNe (v.23Apr20.ae9)41, with ancestry-specific effective population sizes (ref. 77) inferred for Yarrabah and PNG (Is.) using the local ancestry inferred from RFMIX (parameters and sample sizes are detailed in Supplementary Note 6).

  Longer-term effective population sizes were inferred with MSMC2 (v.2.1.2)1,42 from eight phased haplotypes from four randomly sampled individuals from each population (all autosomes), repeated for five replicates of unique sets of four individuals (some individuals may appear in more than one replicate) and applying masks for mappability, low coverage and ancestry other than Indigenous ancestry (Supplementary Note 6).

  使用MSMC2 RCCR推断出种群对之间的遗传隔离,使用每个人群的四种分阶段单倍型的重复(两个个体)。

  用GATK(v.3.8-0)78“单倍型”调用线粒体变体,其倍型设置为单倍体,并通过几种指标进行验证,包括母亲父母 - 填充基因型一致性(补充注释7)。使用野兽(v.2.6.0)79推断线粒体系统发育,并用Treeannotator79产生了最大的进化可信度树。还纳入了澳大利亚和美拉尼西亚的线粒体序列,以更好地解决谱系之间的合并点(补充注释7)。对先前研究的线粒体单倍群频率的数据集进行了整理,以探索整个澳大利亚的单倍群N13,Q2和P3的频率(补充注释7)。

  使用R80中“ GGMAP”软件包的“ GET_GOOGLEMAP”功能从Google地图获得地图,并使用GGPLOT2叠加点(参考文献81)。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。