2025-06-22 02:36来源:本站
M1组织是从三个人类捐助者(男性,年龄42、29和58岁),三个猕猴供体(男性,6岁(Macaca Mulatta),6(M。Mulatta)和14个(Macaca fascicularis)年)的获得,三个(Macaca fascicularis)年),三个Marmoset,三个Marmoset(Callithrix Jacchus)捐助者(Callithrix Jacchus)捐助者(Callithrix Jacchus)供体(Motial 5(Motor)5(himy),4(4(4(4(4(4(4),他),4(4(4(4))(MOP)来自八只P56 C57BL/6J雄性小鼠(Mus musculus)。如先前所述,将小鼠拖把分为四个子区域(2C,3C,4B,5D)。每个重复的四只小鼠从四只小鼠中汇总每个子区域,并为每个子区域进行总共两个重复。从杰克逊实验室购买的C57BL/6J小鼠在受控温度(20–22°C之间)和litbitum的食物下,在12 h – 12 h的黑暗灯光周期下,在12 h – 12 h的黑暗灯光周期内保存长达10天。所有样品都是有效的对照,因此未使用随机化,所有样品都包含在同一实验组中。样品被标记为ID,没有识别物种中的捐助者信息,但是研究并非对每个样品的物种视而不见。样本量没有预先确定。
使用砂浆和在干冰上的杵和杵将脑组织粉碎,并用液氮预处理。Pulverized brain tissue was resuspended in 1 ml of chilled NIM-DP-L buffer (0.25 M sucrose, 25 mM KCl, 5 mM MgCl2, 10 mM Tris-HCl pH 7.5, 1 mM DTT, 1× protease inhibitor (Pierce), 1 U μl−1 recombinant RNase inhibitor (Promega, PAN2515) and 0.1% TritonX-100)。将组织用松散的杵(5-10杆)匀浆,然后是紧密的杵(15-25杆),或直到溶液均匀为止。使用30μM细胞滤光片(SYSMEX,04-0042-2316)过滤核中的核中,将其滤入叶片管(Eppendorf,22431021)中,并进行沉淀(在1,000 rcf,在1,000 RCF,在4°C下在4°C; eppendorf,5920r)。将沉淀重悬于1 ml NIM-DP缓冲液中(0.25 m蔗糖,25 mm KCl,5 mm mgcl2,10 mM Tris-HCl PH 7.5,1 mM DTT,1×蛋白酶抑制剂,1UμL-1uμl-1重组RNase抑制剂)和pelleteD(1000 rcf,1000 rcf,at ar at at 4 ar in at at ar in at at 4 c.)将沉淀的核重悬于排序缓冲液(1 mM EDTA,1 mM EDTA,1uμl-1重组RNase抑制剂,1 x蛋白酶抑制剂,1%fatto fatty capa pbs)中的400μl2μM7-AAD(Invitrogen,A1310)中。总共将120,000个核分类(Sony,Sh800s)成一个含有收集缓冲液的小管(5UμL-1重组RNase抑制剂,1倍蛋白酶抑制剂,5%PBS中的5%脂肪酸BSA)。Then, 5× permeabilization buffer (50 mM Tris-HCl pH 7.4, 50 mM NaCl, 15 mM MgCl2, 0.05% Tween-20, 0.05% IGEPAL, 0.005% Digitonin, 5% fatty acid-free BSA in PBS, 5 mM DTT, 1 U μl−1 recombinant RNase inhibitor, 5× protease inhibitor) was added for a最终浓度为1×。将核在冰上孵育1分钟,然后离心(500 rcf,在4°C下5分钟)。将上清液和650μl洗涤缓冲液(10 mM Tris-HCl pH 7.4,10 mm NaCl,3 mm MgCl2,0.1%,20-20-2中,1%PBS中的1%脂肪酸BSA,1毫米DTT,1 mm DTT,1UμL-1再生rnase rnase rnase rnase rnase rnase protease in thepers in transe pot protepe prote pot prote perse pot prote s pRERS pRENS pELTER中的蛋白酶蛋白酶蛋白酶蛋白酶离心(500 rcf,在4°C下5分钟)。上清液被删除, 并将沉淀重悬于7μL的1×核缓冲液(核缓冲液(10x基因组),1 mM DTT,1UμL -1重组RNase抑制剂)中。将核(1μl)稀释在1×核缓冲液中,用锥虫蓝色(Invitrogen,T10282)染色并计数。总共使用16,000-20,000个核进行标记反应,并根据制造商的推荐协议(https://www.10xgenomics.com/support/single-cell-cell-cell-cell-multiome-multiome-multiome-multiome-multiome-multiome-multiome-multiome-multiome-tac-plus-gene-gene-gene-xexpression)产生了标记反应和库。在NextSeq 500和Novaseq 6000系统上对10倍多组ATAC – SEQ和RNA-Sepering(RNA-Seq)库进行了配对,每种单元格的深度约为每个单元的50,000个读取。
HOMO SAPIENS(人)组装:HG38,GRCH38注释:HG38 Gencode V33;M. musculus(小鼠)组装:MM10,GRCM38注释:MM10 Gencode VM22;M. Mulatta(Rhesus Monkey)组件:MMUL_10(RheMac10),注释:Ensembl版本104(和RefSeq GCF_003339765.1,用于10X MultiOme(请参见下文);Callithrix jacchus(白色tufted-ear marmoset)组件:CJ1700_1.1(CalJac4),注释:GCA_0096663435.2。
为了最大化在Macaque 10X Multiome RNA数据中量化的直系同源蛋白编码基因的数量,我们补充了GCF_003339765.1 GTF中的任何缺失的蛋白质编码基因,并在Ensembl释放104中提供了注释。
使用CellRanger-ARC(10x基因组学)处理原始测序数据,从而生成单核RNA-SEQ(SNRNA-SEQ)UMI计数矩阵,用于内含子和外显子读取基因方向的映射。我们使用SEURAT(V.4)71标准分析管道使用RNA UMI计数进行了无监督的聚类。首先,通过需要≥1,000个ATAC片段和每个核检测到≥500个基因的细胞对低质量核过滤。使用用于主成分分析(PCA)的3,000个可变基因的SCTRANSFORM识别计数。使用DoubleTfinder72预测了推定的多重组,并从每个具有最高双重评分的样本中去除10%的细胞。使用Harmonony73在Sctransformed PC上进行了对捐赠者进行批处理校正。使用前20个PC构建了k-near最邻居图,并使用Louvain聚类确定了群集。为了可视化簇,我们执行了UMAP非线性降低技术70。我们使用Seurat使用引用到已发表的M1 SNRNA-SEQ DATASETS 17,18的参考映射来注释小鼠,摩尔莫斯和人类细胞的子类级细胞类型。我们使用倒数PCA整合了所有四个物种的数据集,这些数据集将每个物种数据集投射到其他物种的PCA空间中,并通过相同的相互邻里要求识别锚。对于集成锚,我们仅考虑了所有四个物种的直系同源的基因。从21种带注释的细胞类型中进行读取,以生成用于下游分析的伪堆数据集。
我们使用MACS2使用MACS2命令callpeak与参数-SHIFT -75 -EXT 150 -BDG -Q 0.1 -B -Q 0.1 -B -SPMR -S -SPMR -CALL -CALL -CALL -SUMMIMS -F BAMPE。我们将峰顶峰值上游和下游250 bp扩展到峰值峰会,以达到每个峰值的500 bp宽度。由于每种单元类型中调用的峰数与序列深度有关,由于细胞类型丰度的差异,这是高度可变的,我们将MacS2峰得分(-LOG10 [Q])转换为每百万74分数。每种细胞类型都保留了每百万≥2分的峰值。我们通过删除HG38和MM10的黑名单区域(https://mitra.stanford.edu/kundaje/kundaje/kundaje/kundaje/release/blacklists/)和MM10的山峰进一步过滤人类和小鼠峰。为了比较人ATAC -SEQ峰,我们首先去除了绘制到读取较低读取性的四个物种中的任何一个区域的峰。为了确定在ATAC -SEQ数据中可遵守较低的区域,我们在每个基因组中以1 kb bin为单位计数所有读数。我们采用了1 kb bin的0次读数,对于其余的垃圾箱,我们在两个方向上绘制了0.02分位数的读数映射和延长1 kb的数量,使我们提供了3 kb的低可贴边箱。最后,将低可容纳性垃圾箱缝合在一起,提供了我们最终的ATAC – SEQ可测度区域清单。比较分析中排除了任何物种中任何一个区域内的峰或直系元素。
对于所有SNM3C-Seq样品,在原子核制备过程中进行原位3C处理,如前所述,可以捕获染色质构象模态22。这些步骤是使用Arima-3Cβ套件(ARIMA基因组学)进行的。分离核并使用先前的描述方法21分离为384孔板。简而言之,用Alexafluor488偶联的抗neun抗体(MAB377X,Millipore)和Hoechst 33342(62249,Thermo Fisher Scientific)对单核进行染色,然后使用bd unferux Sorter(1 drop Single-Cell(1 drop Single)模式,然后处理用于荧光激活的核分类(粉丝)。
根据先前描述的库制备协议21,22制备SNM3C-Seq样品。该协议已使用Beckman Biomek i7仪器自动化,以促进大规模应用。SNM3C-SEQ库在Illumina Novaseq 6000仪器上进行了测序,使用一个S4流动池按16 384孔板,并使用150 bp配对的末端模式进行了测序。
如前所述21,使用YAP管道(CEMBA-DATA,V.1.6.8)进行SNM3C-Seq映射。具体而言,主要的映射步骤包括(1)将FASTQ文件删除到单个单元格中(CustAdapt,v.2.10);(2)阅读级别的质量控制;(3)映射(SNMC的一通映射,SNM3C的两通映射)(Bismark v.0.20,Bowtie2 v.2.3);(4)BAM文件处理和质量控制(Samtools v.1.9,Picard v.3.0.0);(5)甲基轮廓生成(AllCools v.1.0.8);(6)染色质接触。分别映射了来自人类,猕猴,菠萝和小鼠的所有读物,分别映射到HG38,MMUL_10,CALJAC4和MM10基因组。
DNA甲基甲基细胞的分析前质量控制为(1)总MCCC水平< 0.05; (2) overall mCH level < 0.2; (3) overall mCG level < 0.5; (4) total final reads of >500,000 and <10,000,000; and (5) Bismarck mapping rate > 0.5. Note that the mCCC level serves as an estimation of the upper bound of the cell-level bisulfite non-conversion rate. Moreover, we calculated lambda DNA spike-in methylation levels to estimate the non-conversion rate for each sample. To prevent any meaningful cell or cluster loss, we chose loose cut-offs for the pre-analysis filtering. The potential doublets and low-quality cells were accessed in the clustering-based quality control described below. For the 3C modality in snm3C-seq cells, we also required cis-long-range contacts (two anchors >2,500 bp)> 50,000。
映射后,SNM3C-Seq数据集的单细胞DNA甲基谱曲线存储在“所有胞质”(ALLC)格式中,该格式是Tab分离的表被BGZIP/TABIX压缩并索引的表。AllCools软件包中的生成数据命令可以帮助生成以Zarr格式存储的甲基型单元格数据集(MCDS)。我们使用相应参考基因组的非重叠染色体100 kb(Chrom100k)垃圾箱进行聚类分析,基因身体区域±2 kb用于聚类注释,并与伴随的10X多组合数据集进行集成。集成分析的详细信息将在下一部分中进行描述。
如前所述,我们接下来在Chrom100K矩阵上进行了聚类21。总而言之,聚类过程包括以下主要步骤:
进行聚类分析后,我们使用AllCool Merge-Allc命令将单细胞Allc文件合并为伪式式级别。接下来,我们使用Methylpy进行了DMR调用,如前所述80。简而言之,我们首先使用基于置换的均方根测试80计算了CpG差异化甲基化位点。在分析之前,添加了每对CPG站点的基本调用。然后,如果在500 bp之内(1),则将差异化甲基化位点合并为DMR,并且(2)在样品中,最小甲基化差异大于或等于0.3。我们在每个物种的细胞簇上应用了DMR调用框架。
在SNM3C-Seq映射之后,我们使用了顺式长距离触点(接触锚距离> 2,500 bp)和反式接触来生成三个基因组分辨率的单细胞原始染色质触点:染色体100 kb的分辨率进行染色质蛋白隔室分析;25 kb bin分辨率用于染色质结构域边界分析;和10 kb分辨率用于染色质环或点分析。原始细胞级触点矩阵以基于HDF5的SCOOL格式存储。然后,我们使用Schicluster软件包(V.1.3.2)执行触点矩阵插补。简而言之,Schicluster分为两个步骤将稀疏的单细胞矩阵施加:第一步是高斯卷积(PAD = 1);第二步是在复杂的矩阵上使用重新启动算法的随机步行。该插补是在每个细胞的每个顺式基质(内骨体内基质)上进行的。对于100 kb的矩阵,整个染色体被估算。对于25 KB矩阵,我们在10.05 MB之内估算了接触;对于10 kb矩阵,我们在5.05 MB之内估算了接触。每个单元格的估算矩阵以凉爽的格式存储。对于以下大多数分析,将细胞矩阵汇总为上一节中确定的细胞组。这些伪膨胀的矩阵被串联成一个称为coolds的张量,并以Zarr格式保存。
我们使用顶部算法81使用了10 kb分辨率的估算的细胞级接触矩阵来识别每个单元内的域边界。我们首先要滤除与编码黑名单V2重叠的边界。
我们使用Cooltools(V.0.5.1)来调用具有10 kb分辨率矩阵的群集级边界和域。使用500 kb的滑动窗口来计算每个垃圾箱的绝缘得分,并选择了边界强度> 0.1的箱作为域边界。
我们使用schicluster软件包中的call_loop函数调用了带有10 kb分辨率矩阵的群集级循环。
根据“从冷冻脑组织中的细胞核制备中描述的方法,用于铬单细胞Multiome ATAC和基因表达分析”中所述的方法,使用挥杆均质化从冷冻的人M1组织中提取细胞核。”随后用Alexafluor488偶联的抗neun(MAB377X,603 Millipore)抗体对单核进行染色,并用HOECHST 33342(62249,Thermo Fisher Scientific)染色。使用BD流入器分类器将染色的核分类为Neun+和Neun-。最后,将Neun+和Neun -nuclei以2:8的比例合并。
液滴配对标签的实验方案是从先前的研究中采用的。简而言之,在室温下以每500,000个核以1μg,在室温下预偶联了PA – TN5和H3K27AC(ABCAM,AB4729)的原代抗体,随后在4°C的4°C中与0.5亿次铜制核孵育。隔夜孵育后,将核洗涤两次以去除多余的抗体和PA-TN5,然后在37°C下在Thermomixer(Eppendorf)上用PA-TN5标记1小时。
标记反应通过添加停止缓冲液终止。我们将40,000个核分组成两个试管,以将其加载到下一个宝石芯片J系统上,并使用铬X X微流体系统(10X基因组学)进行液滴生成。逆转录和细胞条形码在10倍GEM系统内进行。DNA和RNA文库的构造均根据铬的下一个宝石单细胞多组ATAC +基因表达套件手册进行,除了我们为组蛋白模态文库使用了13个扩增周期。
我们使用Liftover30确定了所有其他物种中每个人类顺式调节区域的直系同源序列。对于每个人ATAC峰和DMR,我们首先对彼此的基因组进行了提升,要求保留序列身份50%(MINMATCH = 0.5)。对于循环锚和边界,抬起仅需要30%的保留序列身份(MINMATCH = 0.3),以说明在更长(10 kb)区域上提升的难度。任何无法提升到其他剖面物种的区域都被确定为人类特异性。对于ATAC峰(500 bp),我们仅保留了升压基因组1 kb或以下的直系同源元素。接下来,我们从确定的直系同源序列到人类序列进行了提升。我们保留了所有序列,这些序列映射回与人与各种物种之间“ 0级保守”的峰值身份。然后,我们进一步识别了所有哺乳动物的级序列,并且在灵长类动物的范围内识别0级。
对于每个人类特征(DMR,ATAC峰,环,边界和ABC增强子对),我们确定该特征是否也存在于物种之间。对于每个非人类物种,我们在HG38中使用了每个特征的直系同源坐标并进行了BedTools82 Intersect82,将每个人元素的重叠元素计数为一个与细胞类型无关的人与该物种之间的1级保护。我们进一步确定了所有哺乳动物(哺乳动物1)的元素,以及在灵长类动物而非小鼠中的元素(灵长类动物1)。如果如上所述,跨物种的任何相同的细胞类型中都存在交集,则将元素确定为2级保守。对DMRS进行了修改,将DMR分为降压和甲基化的DMR,并为每个DMR执行所述程序。两者的结果均已汇总。对于循环,通过在两个锚箱处进行交叉来修改此过程。对于ABC增强子对,我们要求直系同源CCRE针对跨物种的直系同源基因。
对于每个物种对,我们确定了ATAC峰和DMR,具有跨细胞类型的活性模式。我们首先将每个群集中的峰值可及性归一化为log2 [cpm],该水平为0哺乳动物峰或哺乳动物和灵长类动物水平0峰的组合集(在比较灵长类动物时)。对于DMR,我们将定量转换为每种单元类型中的MCG水平1。然后,我们将GLS回归的效应大小(T统计)视为保护的效果大小。此过程控制细胞类型之间依赖性的影响。GLS的关键步骤是估计协方差矩阵。对于每个物种对,我们首先在所有峰或DMR中为每个物种之间的细胞类型之间的协方差计算了细胞类型之间的协方差矩阵。然后,我们通过占据这两个物种协方差的平均值来形成一个协方差矩阵。鉴于每个物种对的GLS T统计量,我们接下来确定了每个物种之间的保守基因,使用Benjamini – yekulti Method31调整了0.05的错误发现率,以说明CCR之间的依赖性。
我们进一步确定了峰和DMR的两类:在哺乳动物中保守的,这些类别被确定为每对物种之间保守的,以及在所有三个灵长类动物中被鉴定为保守的灵长类动物之间的保守的,但在所有物种中没有保守。
对于每个基因ATAC峰和DMR,我们使用信息理论标准83计算了其细胞类型特异性。我们将普遍表达的基因确定为特异性小于0.01的基因。对于DMR,我们将定量转换为每种细胞类型中的甲基化水平1。
对于远端ATAC峰和远端DMR,我们比较了使用双面t检验对独立样品进行平均保护的每对增加的守恒水平。
对于每个类别中的每个人元素(DMR,峰,环,边界),我们注释了其TE关联,并使用annotatePeaks.pls.pl与HG38一起识别其TSS接近度。使用MM10识别其TE关联,重复了小鼠ATAC峰的分析。
我们比较了每个增加的ATAC峰和DMR的保护水平,以确定TSS接近度的富集。在每对级别之间,我们进行了双面Fisher的精确测试。
我们使用gseapy86中的富集85模块进行了GO富集分析。对于每个基因集,我们都使用GO生物学过程2021。我们使用最合适的背景集进行了此类分析,例如,使用默认的最小表达标准作为EDGER(V.3.36.0)26在每个物种中表达的所有基因的背景集均在每个物种中表达。对于ABC靶基因,背景集都是所有人类基因称为具有ABC增强子。为了评估特定细胞类型中的人类偏见基因,背景集均为所有基因测试,用于细胞类型中的差异表达。在评估人类偏见的基因链接时,背景集都是具有ABC链接的细胞类型中测试的基因。
从所有四个物种中的一对一直系同源基因列表开始,我们使用EDGER(v.3.36.0)对每种细胞类型进行了伪批量计数谱分析。我们使用以前的建议进行了分析87。使用M值归一化88的修剪平均值将每个伪大量轮廓归一化,以进行测序深度,然后使用LocFit估算了Tagwise分散。我们拟合单个模型,以使用GLMFIT基于物种身份来预测细胞类型的表达,此后对每个物种对的物种对比度进行了差异表达。我们使用严格的标准来确定一个基因在物种对之间是否差异表达。为了考虑多个比较,我们提名为0.001的FDR,通过除以物种对数(6)的数量,我们将其进一步降低至8.33×10-6,乘以细胞类型的数量(20)。除了这个FDR阈值外,我们还需要差异表达的基因满足2的最小倍数变化,并在上调的物种细胞类型中至少15%的细胞中表达。
应用这些标准后,我们进一步确定了每个物种的偏置基因。对于每个物种中的每种细胞类型,我们都将偏置基因确定为在该细胞类型中显着上调的基因,而在彼此中相比。
从所有四个物种的直系同源物的人类峰集开始,我们使用Edger鉴定了整个物种的差异染色质可及性。我们使用与鉴定物种偏置基因活性的相同参数来估计每个直系峰区域的折叠变化和p值。当识别出明显差异可访问的峰时,我们进行了一些修改。我们使用了相同的FDR截止值(8.33×10-6);但是,为了说明峰值的稀疏性,我们不再在检测到峰的细胞数量上放置阈值。为了补偿,我们需要至少4种之间的最小折叠变化。
应用这些显着性标准后,我们进一步确定了每个物种中每种细胞类型的偏差峰。对于每种物种中的每种细胞类型,我们都将一个偏见的峰视为一个峰,该峰在该细胞类型中显着上调,而在彼此中相比。
对于每个物种对,我们鉴定出具有跨细胞类型的活性模式的基因。我们首先将每个簇中的基因表达归一化为直系同源基因中量化的log2 [CPM]。接下来,我们将GLS回归的效果大小(T统计)在该物种之间的效果大小为保护大小。该过程控制基因之间依赖性的影响。GLS的关键步骤是估计协方差矩阵。对于每个物种对,我们通过首先将每个基因中每个物种的细胞类型之间的协方差在细胞类型之间计算一个协方差矩阵。然后,我们通过占据这两个物种协方差的平均值来形成一个协方差矩阵。鉴于每个物种对的GLS T统计量,我们随后确定了每个物种之间的保守基因,FDR为0.05,并使用Benjamini – Yekulti Method31调整了,以说明基因之间的依赖性。
我们进一步确定了基因的两个类别:在哺乳动物中保守的,这些类别被确定为每对物种之间保守的,以及在所有三个灵长类动物中被鉴定为保守但在所有物种中均不保守的灵长类动物之间保守的。
对于来自Jaspar89核心脊椎动物数据库的每个TF基序,我们使用FIMO(v.5.5.3)90扫描每个CCRE和DMR的HG38序列中的所有出现。对于所有包含给定基序的元素,我们计算了在TF基序处的平均保护指数,差异指数或Phastcons得分。为了对每个基线进行TF类分类,我们使用了TFCLASS数据库中的注释。
我们注释TF家族以可视化TF图案的保护和差异。从TF Class91中鉴定出注释的TF家族。下载了html文本文档(总结TF系列)(http://www.edgarwingender.de/hutf_classification.html),并解析以识别所分析的每个主题的家庭。
我们将测量的保护指数(定义为所有物种对的平均GLS T统计量)与PhastCons92定义的基因和染色质访问CCR的序列保守性。
对于每个CCRE,我们计算了两个序列保守值:一个是CCRE中核苷酸的平均PHASTCON,第二个是CCRE中先前鉴定的基序序列的平均phastcons。
对于每个基因,我们测量了序列保守作为所有基因外显子中的平均PHASTCON。
对于基因和CCR,我们使用两侧长矛人相关性将保护指数与Phastcon进行了比较。
使用CellRanger-arc(v.2.0.0)使用命令“ CellRanger-Arc MkFastq”对液滴配对FASTQ文件进行反复使用;但是,分别使用CellRanger-ATAC(V.2.0.0)和CellRanger(V.6.1.2)对DNA和RNA数据进行了预处理,并使用连接每个模态的相关条形码手动配对条形码49。
对于人M1,去除了少于500个基因的RNA核。计数已归一化,识别3,000个用于PCA的可变基因。使用DoubleTfinder72预测了推定的多重组,并从每个反应(n = 2)中去除10%的细胞,该反应(n = 2)的双倍分数最高。使用Seurat聚集细胞,并通过参考映射到本研究中产生的10倍多组RNA来注释簇。
通过使用Seurat从本研究中引用到小鼠MOP 10X多组RNA数据的参考映射来重新注册的小鼠额叶皮层数据49。去除拖把中未发现的细胞(D12MSN,OBGA,OBGL cLAGL和StRGA)。
将DNA片段从每个带注释的群集中组合在一起,以生成H3K27AC pseudobulk文件。每个CCRE的H3K27AC计数在距中心±2 kb的人类和小鼠中的每个CCRE进行了量化。这些计数用于下游分析。
我们首先在每种单元格中为每个峰的活动评分。为此,我们首先将其属于远端峰,因为启动子元素表现出更大的序列和EPI保护,并且启动子峰值比例可以代表减少的相对测序深度,而不是增加启动子活性。接下来,我们将进一步的子集达到跨哺乳动物的直系同源序列的峰值。接下来,我们将每种细胞类型的峰活动归一化为该单元类型中所有峰的CPM。
鉴于每种细胞类型的峰活动,我们计算出细胞的加权峰保护为每个峰的保护指数,乘以每个峰的活性评分。
然后,我们计算了每种细胞类型的序列保守。首先,我们首先确定了每个峰的序列保护。使用先前鉴定的基序坐标,我们认为峰的序列保守得分是每个峰中基序的平均phastCons92。对于每种细胞类型,我们认为加权序列保护评分是每个峰的序列保守,乘以每个峰的细胞类型活性。
为了计算归一化的TF差异,我们首先计算了每种细胞类型的归一化TF表达。我们将每种细胞类型的基因表达归为转录因子列表,然后将表达归一化为CPM(在TF中)。考虑到每种细胞类型的这种相对TF活性,我们接下来通过将每个TF的相对表达乘以人与所有其他物种之间相同TF的平均差异指数来计算细胞类型的TF差异。
我们通过乘以每个细胞类型峰的活性评分,以及与所有其他物种相比,该细胞类型的峰的活性评分以及该细胞类型峰的绝对log2转换倍数变化来计算每个细胞类型的加权表观基因组差异。
从以前的研究中下载了HG38的K = 100的UMAP映射分数。使用UCSC Wigtobigwig从假发转换为大wig,并使用Bigwigavgoverbed93将其转换为Bigwig。为了评估映射性对读数计数的影响,使用BedTools Multicov82计数每个峰值的总数和每个峰值的每个4 KB区域。
为了归一化以符合可测量性,每个区域的计数除以区域的映射得分。然后将这些区域归一化为可拟态性归一化的CPM,以进行下游分析。
我们使用ABC Model46识别每个物种中的假定增强子基因链接。简而言之,ABC模型使用HI-C数据中的归一化接触频率以及一定的增强剂活性来预测推定的增强子 - 元对。对于每种单元格类型,我们使用默认参数运行ABC模型,以10 kb分辨率提供标准化的HI-C矩阵,ATAC染色质可访问性BAM文件和同一单元格类型中标识的ATAC峰列表。ABC评分更大或等于0.02的预测被认为是阳性的,用于下游分析。
对于每个CCRE的保护水平,我们量化了参与ABC预测的增强子– gene对的CCR的比例。
我们使用可视性归一化计数再次执行了ABC,以说明影响不同增强剂类别中ABC链接的可视性差异。为此,我们计算了每个单元格类型的每个峰中的平均可示意性,并用Mappability normalalization CPM值替换了Enhancer_list.txt中的“ activity_base”列的值。
我们再次量化了参与ABC预测的增强子– gene对的CCR的比例,尽管在受术受到最大影响最大的组中预测的ABC增强子的增加,但大多数ABC对类别都没有受到影响。
由于Marmoset和猕猴基因组不可用的UMAP映射得分,因此我们继续使用非归一化值确定的ABC链接。
如果对所有四个物种中源自直系同源的CCRE,并且在所有四个物种中都瞄准了一个直系同源的基因,则将人为ABC对分为哺乳动物水平0(序列保守)。对于那些不是哺乳动物0的人,他们接受了灵长类动物0的测试,其中包括相同的标准,但只有三个灵长类动物。不是哺乳动物或灵长类动物0级的对被归类为人类特异性。对于所有哺乳动物0对,如果预计所有四个物种中的直系同源元件靶向相同的基因,我们将其归类为Epi保存。如果相同的ABC增强子 - 基因对在各种物种之间被调用,无论哪种细胞类型,它都被归类为哺乳动物1级的保守。如果在跨物种的至少一种相同的细胞类型中鉴定了相同的ABC增强剂 - 元对,则将其分类为2级。我们对灵长类动物0对的灵长类动物进行了相同的分析,以将其分类为灵长类动物1和灵长类动物级别2。对于未识别为哺乳动物或灵活级别1的0级对,它们被分类为人类biase biase biase。
我们确定了可能调节基因表达的人类偏见模式的CRE。对于每种细胞类型,人类发散增强子 - 基因对被定义为一种人类偏见的增强子,其ABC链接与在同一细胞类型中具有人类偏见的基因。在这种情况下,我们考虑了在任何人类细胞类型中鉴定出的ABC链接,因为错过的链接可能反映了细胞类型中较低的染色质接触覆盖范围,而不是真实的细胞类型差异。
我们使用basenJI55,66神经网络体系结构培训了一个深度学习模型来预测开放染色质。我们使用了与以前的研究66相同的层结构,并进行了较小的修改。也就是说,使用残留的卷积块更换了标准的卷积塔,这些卷积块已证明可以提高学习速度和准确性64,94。对于多物种建模,我们为每个物种添加了一个输出预测头。
我们通过识别跨物种序列相似性高的染色体来选择测试和验证数据集,以最大程度地减少数据泄漏56。通过在NIH国家医学图书馆比较基因组观看者中可视化区域对应的染色体。我们从训练和评估,即内皮细胞,吊灯中间神经元,L5外脑外神经元和血管瘦脑膜细胞中删除了低覆盖的细胞类型。
对于每个物种,我们都训练了三个模型,一种模型可以预测染色质的可及性,一种可以预测染色质的可及性和DNA甲基化的模型,一个包括所有其他物种的模型,其中包含用于对DNA甲基化和ATAC数据进行评估的物种。
对单个NVIDIA A6000 GPU进行了培训,该型号具有48 GB的VRAM。使用反向补充以及3 bp序列移动来增强培训数据集。每种模型都经过至少10个时期的训练,只要在过去的8个时期内验证损失得到改善,培训就可以继续进行。训练参数如下:批处理大小= 4,损失=泊松,亚当优化器,学习率= 0.01,动量= 0.99,clip_norm = 2。我们保存了跨培训的最低验证损失的模型,并将其用于评估。对于多物种模型,我们为每个物种保存了最低的验证损失模型,并将该模型用于以后的预测。
评估的内部型预测精度,对于每个模型,我们评估了将细胞类型中的活动排名为细胞类型中的Spearman可访问性之间的相关性的预测能力,以对所有峰值的细胞类型的真实可访问性。
为了评估模型准确性的不同数据集的改进,我们在单独的染色质可及性和双峰模型之间以及双峰模态和多种物种双峰模型之间进行了单面配对的样品t检验。
为了评估该模型预测细胞类型染色质可及性模式的能力,我们将测试数据集中的区域子集与每个物种基因组中所述的所有峰重叠。对于测试数据集中的每个峰值,我们计算了预测的细胞类型染色质可访问性与同一基因座的真染色质可及性的相关性。我们还测量了每个峰的归一化误差。归一化误差计算为真实和预测可访问性之间的L1规范除以该基因座的平均真实可访问性。
对于每个物种,我们评估了在训练中排除训练时预测其可及性的能力。在训练了不包括每个物种的三种模型之后,我们预测了测试数据集中该物种的可访问性。我们首先通过计算由三种模型进行的每个物种特定预测的预测的内部内部类型相关性来评估这些预测的准确性。然后,我们使用三种训练物种的最差预测指标报告了预测的准确性。如前所述,我们进一步评估了持有模型的预测准确性,以预测细胞类型的染色质可及性的变化。
如前所述,我们获得了与神经精神病学和神经系统特征和疾病有关的定量性状的GWA摘要统计数据。我们为连锁不平衡得分回归的标准格式准备了摘要统计。我们将每种细胞类型的指定保护组的染色质峰CCR的子集用作二进制注释,并且作为背景控制集,我们使用了指示的单元格类型中的所有CCR。对于每个性状,我们使用细胞类型的特定连锁不平衡得分回归(https://github.com/bulik/ldsc)来估计与背景控制共同共同注释的富集系数62。
PHASTCONS92从UCSC基因组浏览器(http://hgdownload.cse.ucsc.edu/golden/goldenpath/mm10/phastcons60way/)下载了保守的元素。从(https://ars.els-cdn.com/content/image/1-S.0-S2.0-S0092867418301065-MMC2.xlsx下载了带注释的TF基因列表。
从基因表达式Omnibus(GEO:GSE224560)下载鼠标额叶皮层H3K27AC液滴配对数据。
没有使用统计方法来预先确定样本量。没有样品随机分配,研究人员并未对正在研究的标本视而不见。如上所述,将低质量的核和潜在条形码碰撞排除在下游分析中。
从亲属的死者获得许可。根据《加利福尼亚健康与安全法》第7150条(生效的2008年1月1日)和其他适用的州和联邦法律法规,根据2006年美国统一解剖学赠与法的规定进行了死后组织收集。西方机构审查委员会审查了组织收集过程,并确定它们不构成需要机构审查委员会(IRB)审查的人类主题研究。小鼠实验已获得Salk Institute动物护理和使用委员会的批准,该协议编号为18-00006。Marmoset实验已由马萨诸塞州理工学院IACUC协议编号05170520批准并进行。猕猴实验方案得到了华盛顿大学机构动物护理和使用委员会的批准。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。