2025-06-22 14:53来源:本站
我们收集了大量的475匹古马遗体,分布在41个国家 /地区的230个地点。如报告摘要中所详细介绍的详细说明,与负责基础背景的策划和描述的合作者合作进行了考古马遗骸的采样,并得到了负责考古遗骸的相关机构的批准。在124个新测序标本中,共有105个起源于考古遗址,以前没有对其表征古老的马基因组。他们的基本考古背景在补充信息中描述了。在这项研究中,在加利福尼亚大学尔湾分校的凯克碳循环加速器质谱仪实验室中,总共获得了140个新的放射性日期(补充表1)。在机械清洁约200毫克皮质骨后,提取胶原蛋白并进行超过滤。使用Oxcalonline49和IntCal20校准曲线50对放射性碳日期进行校准。命名样本,参考其原始内部标签命名,其次是三个字母的国家代码及其在日历年中的相关年龄,或者全部以下划线符号分开,并以“ M”前缀附加年龄(例如(例如,KT46_AUS_M3240),以kt46的样品为kittsee radi,该kt46 rects with oftia spame kt46 rects the kt46 radi septy radi hay radi radi均列出了少数。
在图卢兹(CENT LA Recherche Scientifique(CNRS)中心和法国的Paul Sabatier大学中心)的古代DNA设施中处理骨样品,以进行DNA提取,图书馆构建和浅测序。总体方法遵循参考文献的工作。2,包括:(1)用Mixel Mill MM200(RETSCH)微型施加器粉末;(2)根据Gamba等51的过程Y2提取DNA;(3)用户(NEB)酶促处理30;(4)双链DNA模板DNA库的DNA文库构造DNA文库,其中在适配器连接期间添加了两个内部索引,在聚合酶链反应(PCR)扩增过程中添加了一个外部指数;(5)在汇总Miniseq,Novaseq和/或Hiseq4000仪器(配对 - 端模式)上进行Illumina DNA测序之前,请在挂接4200(D1000 HS)仪器上进行PCR扩增,纯化和定量。准备测序池仅表示三个单独的索引中的每一个。
FastQ测序读取读取,修剪和崩溃的读取和使用apterremoval2(v.2.3.0)52无视读取的读数短于25 bp。通过PAYOMIX BAM_PIPELIN(v.1.2.13.2)53(bowtie2(参考文献54)对核和线粒体马参考基因组55,56的对齐方式,通过PAYOMIX BAM_PIPELIN(v.1.2.13.2)53处理所得崩溃和未收录的读取对,并附在751 Y-CROMOMOSMOMES中。45,使用参考文献中建议的参数。57,删除PCR重复项并要求最小的映射质量评分为25。根据MAPDAMAGE2(v.2.0.8)58,根据100,000个随机映射的读数评估了DNA片段化和核苷酸差异模式的存在。总体而言,我们从390个DNA文库中获得了总共124种古老马样品的序列数据,从而在平均覆盖范围的平均深度为0.288-10.925倍(中位数1.40倍;补充表1)的平均表征,并根据使用PaleOmix Coverage(-ignore-readRearpope(-ignore-readReadGroups)估算。根据相同的程序处理了来自352个古代和81个现代基因组的序列数据,以提供比较基因组小组,其中包括4个DONKEYS59、2个Equus ovodovi60和2个晚期更新世北美马匹61,这些马匹61被用作外部组,另外550匹马,另外代表了所有在基因组级别上表征所有血统的马匹(以及补充表1)。
通过对五步操作进行比对来减少对验尸后DNA损伤产生的误差和核苷酸失位的测序:(1)PMDTools(V.0.60)62 62受影响的读数(-upperthreshold 1; dam)或不(-upperthreshold 1; nodam; nodam; nodam dna)的识别和分离(2)NODAM对齐的读数,(3)使用MapDamage2与默认参数(v.2.0.8)58,(4)10 bp修剪重新恢复读取比对的10 bp修剪以及(5)处理后的nodam和dAM类别合并以获得最终的二进制校准图(BAM BAM)序列序列。在Librado等人2之后,估计错误率是私人突变的过量,相对于被认为是错误的高质量现代基因组而言,错误率(P5782_ICE_MODERN;补充表1)。按照参考文献的程序确定了单核苷酸多态性(SNP)。2,对于那些由两个读取或更多读数覆盖的站点(基本质量得分大于或等于30)覆盖的地点的数据伪双扎(V.0.917)63,而无视在30%或更多样品中发现的位点。进一步的过滤器包括仅在相邻基因组位置发生两次连续横向的情况下,仅随机选择一个横向SNP。总体而言,我们的最终数据集保留了9,099,487个高质量的核苷酸横向,分布在31匹马的常染色体上。等位基因将三个外群谱系的等位基因视为祖先。生成的第二个数据集生成了7,092,366个变体,以减轻通过重复上述过程的测序深度引起的可能的偏差,但是随后BAM对齐文件对平均覆盖深度值的中位数的下降降采样,在所有样品中发现了平均覆盖率的中间值(这是2.02-2.02-fold)。随后的分析在两个变体数据集上复制。
使用Markov Chain Monte Carlo(MCMC)框架进行了种群图建模,在AmbixtureBayes64中实施,在AmbixTools2(参考文献4)中,考虑了分别为14和10遗传均质人群群体的预选,所有这些均具有两个标本的最低标本。对于AmpixTools2 Analyses4来说,这是避免在包含单个伪 - 二倍体基因组的人群群体的情况下避免F3-STATISTIS4的关键。AdmixtureBayes分析涉及三个独立的跑步,每次都包含163个MCMC连锁链记录了2亿次迭代。人口图的最终空间是使用90%的燃烧获得的,每40次迭代一次。通过QPADM旋转方案65(补充表2)进一步研究了CWC马的基因组构成,并使用0.01的阈值达到统计显着性。还使用基于深神经网络的定位器方法框架预测了CWC马的地理起源21。为了实现这一目标,我们考虑了10 MB的基因组窗口尺寸和148匹古马的面板,该窗口比CWC马的放射性碳日期之前。使用struct-f4 package24进行了遗传祖先的分解和多维缩放,将272匹古代和现代的DOM2马分组在一起,以降低计算成本。第一个分析步骤(假设没有混合)由1亿MCMC迭代组成,而第二个(假设混合物)涉及5亿次迭代,直到严格收敛为止。否则使用默认参数,并在k = 8至k = 10混合边缘的情况下重复分析。
估计了参考文献中的方法,估计每类近亲繁殖水平。59到单个BAM对齐文件。该方法不需要先验知识的人口等位基因频率;相反,它涉及每个核苷酸横向位置的两次读取的随机抽样,并考虑了1厘米长的基因组窗口中的位点密度,在该窗口中,同一等位基因进行了两次采样(伪共糖性),而两种不同的等位基因(伪质量合格)。使用参考文献的重组图将物理距离转化为遗传距离。66,在地图上的两个连续位置之间线性地插值重组率。显示出低于0.005的伪杂合速率的窗户被认为代表ROH,其累积跨度提供了近交代理。通过包含长ROHS的总基因组跨度(即,大于或等于15 MB)评估了近亲交配。
来自无关的植物马的总共28个基因组被化为横向位点的伪双花,所有这些基因组最大丢失的最大丢失度为10%。除了染色体7、11、12和20外,使用GONE26和连锁不平衡的模式重建人口动力学。参数阶段被转到0以说明伪 - 二倍体数据;否则将应用默认参数。从500个bootstrap伪复制物中估计有效尺寸变化的置信区间。考虑到24种古老的马基因组的选择可以追溯到1850年的平均值,这代表了最早的高质量DOM2基因组集。
从给定基因组中存在的突变的时间积累相对于祖先序列(基于三个外群的重建;即突变时钟)以及衍生突变对之间的连锁不平衡(即重置时钟),从而测量了产生时间及其潜在变化。给定基因组中存在的衍生突变的比例为将所考虑的样品与祖先序列区分开的距离提供了直接替代。假设参考文献的突变率。29,重新缩放进行横向,这提供了我们从祖先序列经过的世代的突变时钟估计。
我们的“重组时钟”估计值是基于在给定基因组中找到一对被毫米摩根隔开的SNP的平均可能性,并且都携带了衍生等位基因。该概率是通过被认为是由于覆盖深度和/或错误率变化而引起的潜在偏差的基因组中检测到的衍生突变的比例来归一化的,从而直接测量了我们数据集中存在的所有欧亚训练的世代数量。基于“突变时钟”的估计值源自所有31个常染色体,而染色体7、11、12和20被掩盖以获得“重组时钟”的估算,这是由于重组图的限制,现在可用于与无缩放的结构变化相关的马匹,本地化的杂物和necentromeses的存在。“重组时钟”的估计值取决于三个未知参数,这些参数通过最小二乘优化进行了优化(t,整个样本中的总谱系长度在整个基因座中平均; ti,从MRCA到马的基因座的谱系长度平均在其基因座中平均;遍布其在其跨座位的基因座;以及持续的pi pici placepy pici sample-Pi捕捉到了人口统计学和Haplotypers simess simess simess simess sigs sys simess simess sigs sigs simess simess simess simess siss)。
我们的方法使用了FastSimcoal v.2.702(参考文献67)提供的串行结合模拟框架进行了验证,并考虑了10个人口统计场景,包括恒定的人口大小,人口收缩和种群扩大各种大小和时间的人口,随后是人口恢复的情况(扩展数据10)。单个基因组分别使用10-8个重组事件和2.3×10-8突变事件,将每个基因组模拟为31个75 MB的常染色体。从900代前,每100代采样了20个模拟的个体,以涵盖马匹驯化的整个时间范围。然后将其模拟为单倍体,除了最近的bin以外,在每次bin中采样的20个个体随机配对以在随机交配下模拟二倍体数据,并进一步进行伪双链蛋白化,以模仿根据真实数据进行的数据处理。在伪二磷酸化之前,在最近的时间段中采样的20个人与自己配对,以说明现代马种群中发现的近繁殖水平升高。68。
对真正的基因组数据集进行了过滤,以排除IBE,LPSFR,Elen和Vert311人口群体,该群体包含来自北美(LPNAMR)晚更新世标本的重要血统亲和力。这阻止了由于种群发散人群的DNA渗入的导致生成时间估计的偏见,这与用于偏振等位基因为祖先或衍生的谱系有关。除了在Botai,在所有样品中的考古背景相似,但与直接放射性碳年代无关的古代标本也被忽略了。这留下了483个标本,这些标本同时提供了“突变时钟”和“重组时钟”的估计,该估计是从祖先序列和欧亚马匹MRCA以来分别从祖先序列经过的世代数量的估计。根据R MGVC软件包中实现的使用,根据降采样的数据集(图3)和使用通用的加法模型(GAM)确定了生成时间的时间变化。放射性碳日期,结构F4多维缩放分析的前五个坐标,以捕获基础种群结构和参数PI,控制每个单个基因组覆盖深度的pi是模型协变量。因变量的标准误差是通过jacknif的,一次将一个染色体放出,并将所得方差的倒数用作回归权重。放射性碳日期与获得的几代人数线性相关的回归模型明显低于通过放射性碳日期的立方样条转换来放松线性的支持(调整后的R2(adj。R2)= 0.803的线性性和0.894的差异p <2.2×10-10-10-10-10-10-16)。最后,我们使用了R Gratia软件包的衍生功能和1000年的时间箱来衡量生成时间的时间变化。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。