全球多样的人类队列中基因表达变异的来源

2025-06-22 17:58来源:本站

  Mage提供了一种宝贵的资源,用于揭示驱动基因表达和剪接变异的遗传因素,包括在很大程度上属于历史上代表性不足的人群的遗传变异。通过将来自同一样本集的公开基因型数据相交,我们将每个基因转录起始位点(TSS)1 MB的顺式eqTL和顺式SQTL映射。我们分别将Egenes和Sgenes分别定义为具有EQTL或SQTL的基因,并将Evariants和Svariants分别定义为分别定义EQTL或SQTL信号的个体遗传变异。我们注意到,尽管我们对常染色体和X染色体上的基因进行了QTL映射,但由于X染色体特有的几种方法学细节(补充方法),我们重点关注此处常染色体的结果。Across 19,539 autosomal genes that passed expression-level filtering thresholds (Supplementary Methods), we discovered 15,022 eGenes and 1,968,788 unique eVariants (3,538,147 significant eVariant–eGene pairs; 5% false discovery rate (FDR)).此外,在通过剪接过滤阈值的11,912个常染色体基因中,我们发现了7,727个SGENES和1,383,540个独特的Svariants(2,416,177个显着的Svariant-Svariant-Sgene-Sgene-Sgene-Sgene-Sgene对; 5%FDR)。

  在关联研究中包含遗传学样本的样本降低了LD的程度并改善了映射分辨率8,10(补充图11)。考虑到这一优势,我们使用Susie25对所有EGENES和所有SGENES的内含子执行精细映射,以识别驱动每个QTL信号的因果变体。对于每个基因和内含子,Susie识别一个或多个可靠的集合,代表独立的因果EQTL和SQTL信号,因此每个可信集合都包含尽可能少的变体,同时维持含有因果变体的高概率。为了获得SQTL精细映射结果的基因级摘要,我们通过迭代合并每个Sgene的内含子级可靠集(补充方法),将内含子级可信度集折叠为基因级可信集。我们至少确定了一个可靠的设置,分别为9,807(65%)和6,604(85%)SGENES,分别将其定义为精细映射的Egenes和Sgenes。与先前的结果相一致,4,26,27,我们观察到了精细映射基因的广泛等位基因异质性,其中3,951(40%)的细映射Egenes和3,490(53%)(53%)(53%)的精细型号SGENES显示出更多的可靠集(图3A和扩展数据图2C)。我们还实现了高分辨率,以识别推动表达式变化的假定因果变体。也就是说,在15,664个EQTL可信集中,有3,992(25%)包含一个单个变体(中值5变体;平均值= 15.8,s.d. = 65.7;图3B)。同样,对于SQTL,16,451(22%)可信集中有3,569个包含一个单个变体(每个可靠集的中值7个变体;平均值= 23.6,s.d. = 99.1;扩展数据图2D)。对于下游分析,我们从每个Egene和Sgene基因级可信度集中选择了一个代表性的“铅QTL”。

  对于每个铅eqtl,我们使用等位基因倍数变化(AFC)28统计量量化EQTL效应大小的尺寸在该基因的所有其他铅EQTL(补充方法)中进行了量化。我们观察到2,031(13%)铅eqTL对基因表达的影响大于双重影响(中值| log2(AFC)| = 0.30;平均值= 0.51,s.d. = 0.64;扩展数据图1)。这是比GTEX26先前报道的稍小的比例,但是我们建议这部分由某些GTEX组织中的小样本量进行了解释,GTEX组织中的样本量很小,该样本量驱动了更强的“获胜者的诅咒”,从而系统地被超出了效果29。

  先前对大种群队列的研究已经确定了在强突变约束下的基因集,从而负面选择耗尽了功能丧失点突变和拷贝数变化30。量化基因突变约束的一种度量是对功能丧失突变(PLI)30的不宽容的可能性。在我们的数据中,我们观察到EGENES的平均PLI得分明显低于非egenes(平均值= 0.304,S.D. = 0.409;两尾Wilcoxon rank-SUM测试:W = 11,596,590,P = 3.89×10-7)。Additionally, highly constrained eGenes (top 10% of pLI) tended to possess fewer credible sets (mean = 0.80, s.d. = 0.82) than other eGenes (mean = 1.12, s.d. = 1.04; two-tailed quasi-Poisson generalized linear model:  = −0.354, P = 5.91 × 10−25; Fig. 3c).此外,高度约束基因(平均| log2(AFC)| = 0.25; s.d. = 0.36)的平均效应大小小于其他基因(平均值| log2(AFC)| = 0.53; S.D. = 0.65; s.d. = 0.65; S.D. = 0.65; wilcoxon总数测试:W = 3,789,789,053,p = 3,87 = 1.87×1.87;不管次要等位基因是否与较高(Δmean| log2(AFC)| = -0.277;两尾Wilcoxon rank-sum测试:W = 928,592,p = 1.39×10-50)或较低的表达(Δmean| log2(afc)= -0.268; twiel wilcox,W = 967,228,p = 2.97×10-47),与稳定选择模型一致,从而将基因表达保持在最佳范围内。这些结果表明,与功能丧失蛋白质编码序列变化(即PLI)的约束与针对改变表达变化的约束(即可信集的数量和EQTL效应大小)之间的关联。这种关联是针对突变约束的其他几个指标,其中包括对副本数变化的不耐受(即Phaplo和Ptriplo) 以及基于推定启动子元件中序列保守序列保守的估计值(扩展数据图3)。总之,我们的结果与以前的分析相一致,这些分析表明针对改变表达变化的弱但可测量的选择31。

  利用推定因果信号的高分辨率,我们量化了15个预测的铅eqtls在15个预测的染色质状态注释中,跨路线基期chromhmm Model 32的127个参考表观基因组群。在启动子区域中,富集最为明显,特别是在活性TSS(TSSA)和侧翼区域(TSSAFLNK)中,但在增强子区域(ENH和ENHG)中也显而易见富集,尤其是对于血细胞类型(图4A和补充图12B)。相反,静态,抑制和异质的区域被EQTL耗尽。我们进一步将分析扩展到原发性DNase高敏位点(DHS)注释,并观察到在血液和T细胞样品的DHSS中强烈富集铅EQTL(补充图12C)。

  关注LCL的数据,我们接下来探索了表观基因组富集与EQTL效应大小(| log2(AFC)|)之间的关系。在EQTL效应尺寸的十分位数中,与启动子相关的富集是一致的,并且在固定的调节区域(例如二价TSS(TSSBIV))和二价增强子(ENHBIV)的富集最为明显的eqtl(补充图13A,b)。相比之下,位于与转录区域(TX,TXWK和TXFLNK)相关的染色质状态内的EQTL,主要显示出较低的效应大小(补充图13C)。这些定性趋势在其他原发性血细胞类型中得到了复制(补充图14-17)。使用来自路线图表观基因组学的其他基于DHS的注释32,我们观察到相对于增强子和二元组(即既是启动子和增强子)区域的启动子区域中的中值EQTL效应大小(图4B)。这种模式类似地在其他原发性血液相关细胞类型中复制(补充图14-17)。使用染色质免疫沉淀,然后对来自Encode33进行测序33,我们还观察到,铅EQTL在312(92.30%; Bonferroni-调整后的P <0.05)转录因子(TF)结合位点(包括规范启动子启动子相关TF)等polrrr2a ans tfff as and and atfff and and and atfffs and tffs and tfffs and tfffs and tfffs and tfff and and and,HDAC,EP300和YY1,通常与增强子相关(补充图12a)。

  我们还研究了精细映射CIS-SQTL的基因组环境。我们观察到铅SQTL在几个关键剪接相关的注释中强烈富集,包括剪接供体站点(Log2(折叠式)= 6.07,95%置信区间(CI)= 4.09–8.04)= 4.09–8.04)剪接受体站点(log2(log2(fold forrichment))富集)= 4.15,95%CI = 3.70–4.62)在内含子– Exon边界处(图4C)。尽管它们的富集程度幅度,但规范剪接位点和剪接区域中的变体代表了少数铅SQTL,而SQTL的丰富性较大,落入5'和3'未翻译区域(UTR),以及编码和非编码基因的外显子。尽管表现出较弱的富集,但这些注释类别共同涵盖了更大的突变目标大小,并可能包含剪接增强剂和隐秘的剪接位点。相比之下,铅SQTL(log2(折叠)= -2.51,95%CI = -2.58至-2.43)大大耗尽基因间区域。总之,这些发现为精细映射顺式QTL的生物学有效性提供了支持,并洞悉了这些变体影响基因表达和剪接的机制。

  为了探索与表达相关的遗传变异在人类复杂性状中的作用,我们接下来试图发现精细映射法MAGE顺式CIS-EQTL和CIS-SQTL之间的共享信号,以及全基因组关联研究(GWAS)的结果。作为一种多项式资源,我们预计法师将促进代表人群不足的GWA的解释。这样的队列之一是使用基因组学和流行病学(PAGE)研究8的人群体系结构,其中包括49,839个非欧洲个体,其中包括自我报告为西班牙裔/拉丁美洲或非裔美国人的大量个人,以及较小的人,这些个人是亚洲人,是亚洲人,夏威夷原住民或美国人。我们进行了共定位分析,以从MAGE和CIS-EQTL和CIS-EQTL和CIS-SQTL中识别GWA之间的共享信号。PAGE GWAS数据包括定量生物医学特征,例如血小板计数和胆固醇水平,以及诸如2型糖尿病等疾病(有关此分析中包含的特征的完整列表,请参见补充表1)。

  在这25个特征中,我们确定了384个独立的GWAS信号。对于每个独立的GWAS信号,我们与500 kbp以内的每个主体测试了EQTL共定位。我们使用SUSIE25和COLOC34,35的组合实施了此分析,以允许在每个信号处进行多个因果变体,并允许两个数据集之间的LD模式不同。我们将中度的共定位定义为具有后概率≥0.5且强大共定位的那些,为后验概率≥0.8。

  使用这种方法,我们确定了与法师顺式CIS-EQTL的中度共定位,用于14个性状的39个独立的GWAS信号,并在13个特征上为25个独立的GWAS信号进行了强大的共定位(补充图18)。其中包括6个GWAS信号的6个特征,GWAS变体很少见(次要等位基因频率(MAF)<0.05)或在1kgp的欧洲大陆集团中未观察到。其中,一个值得注意的结果涉及在血小板计数GWAS命中(Sentinel变体RS73517714)和Tropomyosin gene TPM4的eqTL命中之间的共定位(PCOLOC = 0.998),从而在其中铅eqtl变体(RS1435558304)落在3英尺内。先前的工作暗示了TPM4中罕见的错义变体,血小板异常和过度出血36,这些发现为该基因在血小板功能中的作用提供了支持。Mage Lead EQTL和GWAS Sentinel的变体处于强LD(法师的R2 = 0.874),在1kgp的欧洲大陆集团中很少见(MAF <0.05),但在非洲大陆集团中更为常见。

  我们重复了MAGE SQTL的共定位分析。在同一组384个GWAS信号中,我们与法师CIS-SQTL鉴定了中等的共临界,跨12个性状,用于30个独立的GWAS信号,并在10个特征上为24个独立的GWAS信号进行了强大的共定位(补充图18)。其中包括两个特征的三个GWAS信号,在1公斤重的欧洲大陆群中,GWAS变体很少见或未观察到。这些结果共同介绍了配对全球多样的基因表达和WGS数据集(如法师和1kgp)的实用性,分别解释了非欧洲同伙的复杂性格GWA。

左文资讯声明:未经许可,不得转载。