人类癌症突变过程的签名

2025-06-25 06:34来源:本站

  验证突变签名需要确保至少一个样本中归因于该签名的大量躯体突变是真实的。验证是复杂的,因为多个突变过程通常在大多数癌症样本中都是可操作的,因此可以将每个体细胞突变概率地分配给几个突变特征。To overcome this limitation, we examined our data set for samples that are predominantly generated by one mutational signature (that is, more than 50% of the somatic mutations in the sample belong to an individual mutational signature) and/or for samples in which all operative mutational processes have mutually exclusive patterns of mutations (for example, a sample with mutations only from signature 1B, which is predominantly C>T substitutions, and signature 18, which is主要是替代)。我们确定了每个突变签名的最佳可用样本,并试图使用三种方法之一(补充图99)验证归因于该签名的体突变的子集:(1)通过使用正交序列技术重新测序来验证;(2)通过使用相同的测序技术重新测试(包括RNA-Seq,Bisulphite测序等)来验证;(3)通过使用基因组浏览器和BAM文件的肿瘤及其匹配的正常情况来验证经验丰富的策展人的体细胞突变验证。

  对于一些先前发表的样本,我们使用了已经报告的验证数据。在可能的情况下,通过重新使用正交技术进行重新测序或使用相同的测序技术重新续航来验证体突变。我们只有在没有其他可能验证突变签名的可能性时才能进行视觉验证。22在27个最初确定的突变特征中得到了验证(补充表1和补充图99)。三个突变特征失败了验证:签名R1至R3(补充图24至26)。我们无法验证两个突变特征:签名U1和U2(补充图27和28),由于缺乏可用的生物样品并访问了这两个突变特征产生的足够数量的体细胞突变样品的BAM文件。

  从所有受试者获得知情同意。每个机构的适当内部审查委员会批准了患者样品的收集和使用。除了新生成的数据外,我们还从其他三个来源策划了可免费获得的体细胞突变:(1)癌症基因组图集的数据门户(TCGA);(2)国际癌症基因组联盟(ICGC)的数据门户;(3)先前在同行评审期刊上发布的数据,请参阅其他references6,23,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59.

  在所有检查的样品中,已经对来自同一个体的正常DNA进行了测序以建立变体的躯体起源。进行广泛的过滤以去除任何残留的种系突变和特定于技术的测序伪像,然后再分析数据。Germline mutations were filtered out from the lists of reported mutations using the complete list of germline mutations from dbSNP60, 1000 genomes project61, NHLBI GO Exome Sequencing Project62, and 69 Complete Genomics panel (http://www.completegenomics.com/public-data/69-Genomes/).通过使用包含120多个正常基因组和500个正常外部的(无与伦比的)正常组织的BAM文件的面板来过滤技术特定的测序伪像。至少在至少两个普通BAM文件中至少存在三个井映射读数中的任何体细胞突变都被丢弃了。其余的体细胞突变用于为每个样品生成一个突变目录。

  在所有过滤后,基于单倍体人基因组估算了体细胞突变的患病率。基于蛋白质编码基因的鉴定突变计算出体细胞突变的患病率,并假设平均外显子体在蛋白质编码基因中具有30 MB,并具有足够的覆盖率。基于所有已鉴定的突变,并假设整个基因组的平均基因组具有2.8千千克,并且覆盖范围足够,则计算了整个基因组中体细胞突变的患病率。

  使用人类基因组构建GRCH37的Ensembl核心编程界面提取直接的5'和3'序列上下文。使用UCSC的自由可用的升力基因组注释工具(任何具有模棱两可或缺失映射的体细胞突变),将重新映射到最初映射到人类基因组较旧版本的人类基因组的策划的体细胞突变。当在同一染色体的连续碱基中存在两个取代时,识别二核苷酸取代(忽略了序列上下文)。检查了所有indels的直接5'和3'序列含量,并在分析的突变目录中纳入了单/多核苷酸重复序列或微观理学中存在的序列。仅使用在被批准的蛋白质编码基因的抄录区域中鉴定出的替换,为每个样品得出了链偏置目录。双向转录的基因组区域被排除在链偏分析中。

  使用我们先前开发的计算框架5,对30种癌症类型中的每一种都独立地解密了突变特征5。该算法破解了最小的突变特征集,这些突变特征最佳地解释了每个目录中每种突变类型的比例,然后估算每个签名对每个目录的贡献。还针对基因组和外部分别提取突变特征。使用观察到的人类外显子体中观察到的三核苷酸频率到人类基因组之一,将从外来体提取的突变特征归一化。使用无监督的聚集层次聚类将所有突变特征聚类,并选择一个阈值以识别共识突变特征集。通过手动检查(以及必要的重新分配)对所有群集中的所有签名避免进行错误的群集。在30种癌症类型中确定了27个共识突变特征。解释突变签名以及本研究中使用的数据的计算框架可以免费获取,可以从http://wwwww.mathworks.com/matlabcentral/fileexchange/38724下载,而从ftp://ftpppp.sanger.acer.ace/ppp.sanger.ace/pp.sande则可以从中获得整个体细胞突变。

  最近,使用模拟和真实数据,我们详细描述了影响突变特征提取的因素5。其中包括可用样本的数量,样品中的突变患病率,突变的数量,不同的突变特征,癌症样品中突变过程的签名之间的相似性以及计算方法的局限性。在这里,我们检查了来自30种不同癌症类型的大小不同的数据集,我们非常注意仅报告经过验证的突变特征。但是,我们的方法确定了两种类似的模式,最有可能代表相同的生物学过程。也就是说,签名1a和1b。原因是,对于某些癌症类型,我们有足够数量的样本和/或突变(即统计功率)来破译更清洁的版本(即签名1A),而对于其他癌症类型,我们没有足够的数据,我们的方法提取了签名的版本,这是由癌症类型的其他签名所污染的,这是其他签名的污染物(nistature of Cancer thate that in Cance that Insatectation 1B)。然而,这两个签名非常相似。因此,我们称它们为1A和1B。在癌症类型中几乎相互排斥(也就是说,在每种癌症类型中找到签名1A或1B,但通常不是两者)都支持这样的观念,即它们代表与年龄相关的签名1A和1B均与年龄相关并且对个体癌症基因组具有相同的总体贡献模式。确实,我们认为,如果我们有足够的数据,签名1B可能会消失,并且该算法仅提取签名1a。

  使用由替代类别定义的96替代分类以及立即在突变基础上定义的3'和5'的序列上下文来显示突变特征。根据观察到的人类基因组的三核苷酸频率,报告的主要文本和补充信息中显示了突变特征。也就是说,根据参考人基因组的实际三核苷酸频率在每个特征中产生的突变的相对比例。但是,在补充信息中,我们还基于每个三核苷酸的相等频率提供了突变特征的可视化(补充图2-28)。在所有突变特征中,相等的三核苷酸频率表示,与基于观察到的三核苷酸的图相比,在NPCPG三核苷酸上,C> T取代在NPCPG三核苷酸上的重要性更大。在某些情况下,这种差异可能反映了生物学现实,即在NPCPG三核苷酸中更活跃的特定突变过程的倾向。但是,请注意,在某些情况下,这也可能是由于从签名1a/b的签名算法不完整提取的,该签名的特征是NPCPG Trinucleotides的突出特征。这很可能发生,因为(1)签名1a/b无处不在,(2),因为NPCPG三核苷酸的突变概率很小,因为参考基因组中NPCPG三核苷酸的严重耗竭,也会产生突出的特征。将来,随着序列和大量全基因组序列的数量,预计后一种效果将降低。

  通用线性模型(GLM)用于拟合签名暴露(即分配给签名的突变次数)和癌症诊断的年龄。对于每种癌症类型,使用GLMS评估了所有突变特征,并使用Benjamini -Hochberg错误发现率程序校正了P值进行多个假设检验。所得的p值表明,年龄在15种癌症类型中与签名1a/b密切相关(补充表2)。接触签名4还与肾脏乳头状和甲状腺癌的诊断年龄相关。但是,在两种癌症类型中,由于其样品中的突变数量较少,我们无法检测/提取签名1A/B,并且可能需要在签名4中混合签名1A/B。需要进一步的研究涉及全基因组序列以验证这一假设。值得注意的是,在黑色素瘤中,诊断年龄也与接触签名7相关,我们与紫外线暴露有关。

  使用两组样品之间的两样本Kolmogorov – Smirnov测试,在所有其他Aetiologies和Signature暴露之间进行了关联。第一组包含带有“所需特征”样品的特征曝光(例如,在免疫球蛋白基因中包含过度儿称的样品),第二组是没有“所需特征”的样品的签名曝光(例如,样品中不包含免疫球蛋白基因中不包含高温的样品)。具有未知特征状态的样本(例如,不知道免疫球蛋白基因的状态)被忽略。对所有特征进行了Kolmogorov – Smirnov测试,并在癌症类型中检查了所有“特征”。使用Benjamini – Hochberg假发现率程序,并基于特定癌症类别的测试,对P值进行了多种假设检验的P值。

  在507个全基因组测序的癌症中寻求局部超突击的焦点,称为kataegis。使用开发的算法来识别Kataegis的焦点,研究了先前经过过滤进行突变签名分析的高质量变体调用。

  对于每个样品,所有突变均通过染色体位置排序,并计算为从每个突变到下一个突变的基本对数的相互作用距离。然后使用分段恒定拟合(PCF)方法进行分割,以找到恒定距离距离的区域。用于PCF的参数为γ= 25,kmin = 2,并在使用正交测序平台进行手动鉴定,策划和验证的Kataegis foci集中训练。假定的Kataegis区域被确定为包含六个或更多连续突变的段,平均互发距离小于或等于1,000 bp。

  为了检查不同突变负担发生的Kataegis发生的可能性,计算了每种癌症的突变总数,N,在1,000至2,000,000之间,计算了偶然观察到的Kataegis事件的预期数量。任何一个突变之后的概率在5,000 bp的距离之内,从而触发了kataegis的鉴定,从而通过p = p(POIS(5,000N/G)≥5)给出,其中G是基因组的长度,以基本对为基础。

  补充图97显示了在100,000至500,000突变的基因组中鉴定出的Kataegis事件的预期数量。对于具有多达200,000个突变的癌症,Kataegis事件的预期数量极小(总突变负荷为200,000,为0.16),这使得对每个样品的Kataegic foci的检测都非常重要。补充表3列出了所有鉴定了Kataegic Foci的样本,每个样品的总突变负担,观察到的Kataegic foci数量以及焦点的预期数量。

  在低序列复杂性的区域中,很容易发生变体调用的簇。这些不是真正的替代突变,而是代表系统的测序工件或简短读数的错误映射。变体调用的质量取决于各个机构的突变呼叫质量。应用额外的过滤以去除可能的假阳性调用,然后单独策划假定的kataegic焦点。

  PCF调用了1,436个Kataegis Foci,其中873个最终确定为推定的Kataegis foci(补充表4),涉及9,219个替代变体。在可能的情况下,对Kataegis Foci涉及的BAM文件进行了检索,检查和替换变体,以删除可能的假阳性呼叫。如果我们无法使用BAM文件,则严格排除了替换变体,如果在:(1)产生映射错误的基因组特征,例如,由于参考基因组中的折叠重复序列而导致过高覆盖率过高的区域;(2)具有读数的高度重复区域始终显示出20个无关的正常样本中的映射质量低;(3)在测序中具有已知种系插入/缺失的位置读取了报告突变碱的位置。

  在最终推定的kataegis foci中看到了几个功能,这加强了这些呼叫有效性的信念。尽管通过PCF方法鉴定的突变簇是在一种通过突变类型公正的方法中寻求的,并且仅基于相互量的距离,但我们发现873假定的灶证明了:首先,对C> T和C> G突变的优势(补充图97B);其次,如前所述的TPC序列上下文的富集6(补充图97b);第三,加工率(簇中的连续突变在相同的链上;即,连续的6 c> t突变或连续的6 g> a突变;图6C);第四,携带这些过程变体的读取的视觉策划表明,这些变体通常在顺式中(即突变在相同的读取(补充图97C)或插入大小中其他受影响等位基因的读取序列上)相对于彼此而言,这表明它们在同一等位基因上具有Arisen。最后,在可用数据的地方,我们发现相同的kataegis foci内的取代突变簇共享了大致相同的变体等位基因分数,这表明它们可能在单个细胞周期事件中出现。

  来自某些样品的BAM文件无法访问,因此未在视觉上策划涉及Kataegis foci的替换变体。上述严格标准的应用以及随后发现突变类型,序列上下文,突变的过程性质的一致性,而在单个测序读取中的CI中的大多数表明,这些焦点中的绝大多数可能是真实的。但是,某些焦点不是真正的kataegis,尤其是对于尚未验证或视觉策划的癌症的可能性仍然存在。

  公认的是,检测Kataegis Foci的可能性取决于突变检测的敏感性。在我们分析之前,在各个机构的突变呼叫者中未检测到突变,因此可能会被遗漏。这与具有低变异等位基因馏分的亚克隆突变或在多拷贝基因座的单个副本上发生的突变特别相关。这是因为当未校正拷贝数和肿瘤样品的异常细胞分数时,突变检测的可能性降低。此外,我们严格的后处理标准,尤其是尚未在视觉上策划的样品的标准,这使得Kataegis在此分析中的代表性不足。

  加强了我们以前的发现6,我们发现一些Kataegic Foci与重排密切相关。例如,具有1,534点突变的乳腺癌样本只有一个焦点的kataegis,其中包含32点突变。相同的乳腺癌样品还具有散布在整个基因组中的25种大规模基因组结构变异。然而,一个串联重复与这种癌症中的卡塔吉斯的单个基因座相吻合。值得注意的是,对于这一非凡事件的2 Mb,没有看到其他突变或结构变化(补充图97b)。另一个乳腺癌(图6)包含22,454个突变,完全有292个重排,有9个Kataegis区域,其中5个区域与大规模的结构变化相吻合,强调了Kataegis foci的共同定位与结构变化。这也表明,并非所有与结构变化共定位的Kataegis焦点,而是所有结构变化都与Kataegis相关。

  放大站点代表了错误的变体调用的潜在来源。如果扩增发生在癌症的演变中,则取代的可能性增加了,在扩增的基因组区域内随机积累。当映射回参考基因组时,这些将显示为聚类变体。

  许多功能使我们能够将此类事件与“ True” Kataegis区分开。这些突变不会期望具有与Kataegis相关的特征,例如突变类型,TPC序列上下文和加工性的偏爱。此外,如果它们已在多拷贝基因座中积累为随机事件,那么相互相对于彼此,它们在顺式(同一测序读取)中的可能性较小。相反,在单个细胞周期事件中的瞬时超显性时,同时发生的突变有望聚集在一个多拷贝基因座的一个副本上,在顺式中,并证明了大致相同的变体等位基因分数。最后,为了达到需要称为kataegis的重点所需的超名水平(对于六个连续的突变,平均互成距离小于1,000 bp,等于每MB的1,000个替换),必须相当大的拷贝数扩增程度。

  为了检查放大区域中错误调用的可能性,假设不同拷贝数状态和不同尺寸的焦点扩增,则假设背景突变率为每MB 10,每MB 40,每MB 40和100。补充表5中提供了这些不同状态的Kataegic灶的预期数量。对于检测到Kataegis的大多数样本(除二十个外,所有),放大的10 MB区域需要36或以上的拷贝数,以产生1个群集的6个突变,平均相互距离少于1,000 bp。在其余20个样品中,有19个样品中,一个10 MB的扩增区域将需要10或更高的拷贝数状态。对于突变率超过每MB 40的单个癌症,产生一个突变簇需要4个拷贝数状态。如前所述,这些簇必须是过程的,位于顺式中,并且具有相同的变体等位基因分数,即被称为Kataegis的焦点。

  Kataegis已通过基于PCF的方法鉴定为6个或更多的连续突变,平均相互作用距离小于或等于1,000 bp。其他显着特征包括对C> T和C> G突变的优势,TPC突变环境的偏爱,加工性,在同一父母等位基因上产生的证据(在顺式)上(在顺式)上进行了测序读数,以及(不一定是)共定位的大规模基因组结构变异。

左文资讯声明:未经许可,不得转载。