最早的现代人类基因组限制了尼安德特人混合的时间

2025-06-22 14:43来源:本站

  我们通过对参考文献中描述的16个现有文库进行测序来生成核DNA数据。4和1。3,并通过对参考文献重新采样标本后产生的新库进行测序。4,另外三个标本。这些新标本中有两个RNI082和RNI083来自Ranis,一个Zku001来自ZlatýKůň(补充信息1)。总体而言,我们从14个标本中收集了14个标本的41个新子样本,重量在37毫克至3.9毫克之间,在前马克斯·普朗克(Max Planck)的专用洁净室设施中,德国耶拿,德国耶拿(Jena)和马克斯·普兰克(Max Planck)的麦克斯·普兰克进化人类学研究所(Max Planck Institute for Leipzig,德国,德国)使用Stersterile dentrile interirile dentrive。参考后提取DNA。46带有缓冲区“ D”,然后按照参考文献中描述的自动协议转换为单链库。47。对于来自11个样品的25个文库,我们使用1240K Array15进行了单核苷酸多态性(SNP)富集捕获,用于人口遗传学分析,而对于九个样品的17个库,我们使用了古老的Admixture阵列进行捕获,具体调查了Neanisevan和Denisovan和denisovan sackant和denisovan。根据参考文献中提出的捕获协议,捕获了库。48和参考。49。在Hiseq4000平台上对1240K阵列捕获后的库进行了测序,并且在MPI-EVA的古代DNA核心单元设施中,在NextSeq500或Hiseq4000平台上对古代混合阵列捕获后的库进行了测序。对于两个标本,RNI010和RNI087,我们在NextSeq平台上执行了完整的Y-Chromosome Capture50和Y可贴上的捕获测定法(YMCA)51捕获和生成的序列。我们基于预期索引组合的完美匹配来消除所得序列,并将它们与BWA(v.0.5.10.5.10-evan.9-1-1-G44DB244,https://github.com/mpieva/mpieva/mpieva/mpieva/network-aware-bwa)映射到HG19参考基因组中 ('-n 0.01 -o 2 -L 16500')52(补充信息3)。

  来自ZKU002的三个库和RNI013的四个库分别用于获得高覆盖的ZlatýKůň和Ranis13基因组。来自两个文库的序列ZKU002.A0101(双链,半含量的大肠杆菌uracil-DNA-糖基化酶(UDG)处理)和ZKU002.A0102(单链,无UDG治疗)先前发表了3。在这项研究中,ZKU002.A0102使用76台基对(BP)单阅读测序进一步对两个完整的HISEQ4000运行进行了测序。第三个库ZKU002.A0103是由与前两个库相同的DNA提取物生产的,并在瑞典斯德哥尔摩的SciLifelab上进行了测序,并在完整的Novaseq S4-200 Flow-Cell上使用2×75-BP配对 - 配对 - 末端测序进行了测序。对于RANIS13,从相同的裂解物中制备了四个单链库(RNI013.A0101,RNI013.A0102,RNI013.A0103和RNI013.A0104),并组合在一起,共同组合在一起以进行更深的测序。按照与上述ZKU002.A0103库相同的设置,在Scilifelab上对汇总的库进行了测序。使用LeeHom(V.1.1.5)53删除适配器,向前删除和反向读数。根据索引序列将序列分配给库,使每个索引最多一个不匹配。当将库仅在完整的车道上进行测序时,只要找不到其他索引组合的证据,将所有序列分配给给定的库。将分配的序列映射到使用BWA54(参数:-n 0.01 -o 2 -L 16500)的人类参考基因组(HG19),并使用BAM -RMDUP(v.0.2,https://github.com/mpieva/mpieva/mpieva/mpieva/mpieva/mpieva/biohazard-tools/)分别删除重复。

  将所有捕获数据的最小序列长度过滤为30 bp,最小映射质量为25。对于RNI013和ZKU002的库,我们使用了SPAL55(v.2)来估计长度的截止,以确保较低的微分比对。ZKU002.A0101,ZKU002.A0102和ZKU002.A0103的长度截止时间为26、27和27 bp的长度最多1%。对于Ranis13的所有四个库,最多1%的伪造比对的长度为28 bp。我们使用samtools56(v.1.3.1)相应地过滤了每个库的最小长度,并映射25。我们还取下了与indels的比对,以短于35 bp的序列。如参考文献中所述,我们应用了基因组映射过滤器MAP35_100%。27。为了确保序列的可映射性短于35 bp,我们使用了mapl55。我们使用Authentict14和/或HAPCON_ROH17估算了当今的人类污染。

  我们使用SNPAD(v.0.3.11)6,57来调用ZlatýKůň和Ranis13高覆盖基因组的基因型,在过滤30的基本质量为30,序列长度为30,并在使用GATK58重新对准Indels后(V.1.3-14)。预计对错误使用的替代基因型的分析尤其敏感,截止时间为35 bp。估算了误差概况(基本交换的概率)和基因型频率,并用于每个染色体独立于每个位点调用最可能的基因型。以前的方法为6,27,32,我们应用了进一步的过滤器,以删除落在GC校正覆盖范围分布的2.5%极端的位置,并删除了Tandem重复59和名为Indels的位点。我们还过滤了最小深度为10倍的地点,最大深度为50倍。

  我们使用软件KIN18来推断标本中的亲属关系超过0.05倍。我们将分析限制在1240K Capture Array15中的目标位点,并为Authentict14和/或HapCon_roH17的污染估计提供了补充信息6中所述的污染估计。我们合并了来自同一个人的标本中的数据,并重复了分析。

  使用先前描述的方法6,27检测到Ranis13和ZlatýKůň的高覆盖基因组中的纯合区域。此外,我们使用HAPROH28的低覆盖基因组和高覆盖基因组中的1240K位点检测到ROH。

  为了估计Ranis13和ZlatýKůň的年龄,我们通过两种方法分析了它们的高覆盖基因组:(1)通过计算古代谱系中缺失突变的数量(分支缩短)9,27,(2)通过匹配PSMC Method Methoge估计的PSMC方法25,32估算的人群历史学家,以估算PSMC Methoce 25,32。

  分支缩短估计值基于最小序列长度为35的基因型调用,我们仅计算横向取代。每个位置的祖先状态是从四个猿的基因组比对(Chimpanzee,Bonobo,Gorilla和Orangutan -Pantro4,Bonobo,Gorgor3,Ponabe2)推断出来的,并使用了祖先国家的差异来估计分支长度。我们使用了当今MBUTI个体(SS6004471,HGDP00982)的基因组来校准我们的估计值。

  我们使用PSMC25(V.0.6.5)重建了Ranis13和ZlatýKůň的人口统计学历史,并遵循了参考文献中的方法。32估计两个人的年龄。简而言之,在借助模拟(使用SCRM60)纠正通过过滤引入的偏差之后,我们比较了从当今法国人的基因组(SS6004468,HGDP00533)38重建的人口统计历史记录与从人口统计学历史上从ranis13和zlatimations的基因组中构造的人群历史相同的人群历史。为此,法国个体年轻基因组的人口统计学历史被截断为0至162,429年,步骤为5,075年,同时每次都模拟了十个整个基因组。然后,我们将该基因组相同过滤到Ranis13和ZlatýKůň,并在其上运行PSMC。最适合古代基因组的截断历史对最近基因组的时间差进行了估计。

  为了估计其他各种古老的古代高覆盖基因组和ranis13/zlatýKůň之间的分裂时间,我们使用了MOMI2(参考文献21)。

  我们使用AdmixTools(https://github.com/dreichlab)的QPDSTAT计算了F统计数据。F3-OUT组统计数据用于计算所有可能的狩猎采集者成对组合的亲和力矩阵。F4统计量用于测试分子和混合。对于所有图,都使用默认的块夹刀计算标准错误,我们始终显示3个标准错误。

  使用R实现CMDSCALE进行了多维缩放分析。用在所有可能的Hunter-gatherer成对组合中的1-F3成对值中的F3-OutGroup矩阵计算的遗传距离计算欧几里得距离。我们使用了来自AmdixTools(https://github.com/dreichlab)的QPGraph来确定Ranis和ZlatýKůň个人的系统发育位置,遵循参考文献中报告的树结构。2和参考。17。

  我们使用基因型调用(SNPAD6,57 V.0.3.11)计算了D统计量,来自ZlatýKůň和Ranis13的高覆盖基因组,以及各种古代和当今的人类基因组,以及尼亚斯坦和Denisovan高品质的基因组(补充信息9)。每个个体在杂合调用中选择一个随机等位基因,并将其子群取为双重位点。为了推断猿猴外群的状态,黑猩猩,bonobo,Gorilla和Orangutan基因组的对齐基础必须匹配。根据5-MB窗口中的加权区块折刀程序估算了D统计量,并估算了置信区间,并绘制了3个标准误差(参考文献3,6,20,61)。

  我们使用AmbixFrog33(V.0.7.1)来推断高覆盖的ZlatýKůň和Ranis13基因组中的尼安德特人血统,以及从通过Archaic Admixture Capture16获得的低覆盖基因组数据。我们从Denisova 3(参考文献52),Vindija 33.19(参考文献6),Denisova 5(或Altai Neanderthal)27,Chagyrskaya 8(参考文献32)的高覆盖基因组的等位基因信息中建立了参考面板。来自古代混合阵列确定的1000个基因组项目的卢哈个体(Fu等,2015,第4面板4)16,对于X染色体位点,来自扩展的古细胞刺激39。使用非裔美国人重组MAP62或DECODE MAP63分配了遗传距离。

  在基因型调用上的Moorjani等人的8个约会方法推断出渗入事件的数量和这些事件的时间,另一种适合尼安德特人节段长度的方法,是单个指数分布,或两个指数分布的混合物,分别与单个或两个混合事件相对应。将第二种方法的长度截止量为0.2 cm,以避免通过不完整的谱系排序产生的短段(补充信息13)。除了简单的脉冲模型外,我们还试图适合参考文献中所述的扩展脉冲。34。我们根据参考文献后的Admixfrog检测到的Ranis个个体和ZlatýKůň的基因组和ZlatýKůň的尼安德特人血统进行了量化。64,并应用“直接F4比率测试” 20,65。我们还与先前报道的尼安德特人和丹尼索货这样的沙漠地区的交叉点相结合了尼安德特人的段,使用Bedtools 35,36,37,66。

  我们调查了Ranis13和ZlatýKůň基因组中的尼安德特人段是通过将浸入式片段的位置相关联(补充信息15)还是通过测试尼安德特人段边缘的重叠(补充信息16)(补充信息16)。

  在过滤C→T and G→A向前和反向链上的替换后,研究了ISOGG67(国际遗传家谱学会)收集(v.15.73)的Y-SNP列表。然后,我们手动称其为我们派出的呼叫的最终解决的Y单倍群,以及最小的祖先呼叫(补充信息18)。

  要在五个最多多态HLA基因座(HLA -A,-b,-c,-c,-drb1和-dQB1)上推断HLA单倍型,我们遵循了参考。68(补充信息19)。对合并的FASTQ文件进行过滤,以删除读取的短于30 bp。使用Bowtie2(参考文献69)(v.2.2.6)将序列数据与HLA参考文件对齐。手动检查对齐方式,以重建每个位点,两种单倍型的共识序列,同时仅考虑对感兴趣源的明确比对。将共识序列与已知的四位数HLA等位基因进行比较,以找到最佳匹配序列,从而定义等位基因调用。使用OptityPe70(v.1.3.3)进一步证实了I级基因座的等位基因调用。

  我们研究了与表型变异有关的43种变体,包括乳糖持久性和色素沉着(补充信息20)。我们通过计算携带效果等位基因的序列的数量与所有基因组中的每个变体的非效应等位基因的数量,在1240k站点上均具有≥1倍覆盖率(来自Ranis13和ZlatýKůň的高覆盖shotGun数据,以及来自Ranis4,Ranis4,Ranis4,Ranis12和Ranisis12和Ranisis87的低覆盖率捕获数据)。

  我们使用rstudio(V.2022.12.0+353,http://www.rstudio.com/)和以下包装以进行数据可视化:cowplot(v.1.1.2),ggplot2(v.3.4.2,v.3.4.2,https://ggplot2.tidyyverse.org),tidyverse.org),tididyr(tidiDyr(v.3.0),v.3.0,v.3.0,v.3.0,v.3.0,v.3.0,v.3.0,v.0,https://github.com/tidyverse/tidyr),dplyr(v.1.1.4,https://github.com/tidyverse/dplyr),magrittr(v.2.0.3,v.2.0.3,https://github.com/github.com/tidyverse/magrittr)https://github.com/r-lib/scales)和Metbrewer(V.0.2.0,https://github.com/blakermills/metbrewer)。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。