果蝇胚胎中选定组织的合成增强剂的目标设计

2025-06-22 06:46来源:本站

  我们从参考文献的10-12 h TimePoint中检索了18个组织伪bulk(即,来自所有细胞的映射读取)的SCI-ATAC-SEQ3映射读数(DM6)。16(从https://shendure-web.gs.washington.edu/content/members/deap_website/public/于2022年2月1日下载,可应要求提供BAM文件;另请参见扩展数据图1A)。我们为每个组织伪大容量产生了覆盖轨道,包括感兴趣的五个组织:CNS,大脑,表皮,表皮,中肠和肌肉(最初是针对体细胞肌肉和肌肉和肌肉伪伪堆进行了分别建模的,因为这些散装是在各自的出版物中分别注释的,我们仅在下面进行了usperal ands anders anders felped)。每个伪块中的所有读取片段均用于使用MAC254,55的峰值调用,并带有以下命令:MACS2 CallPeak-Nomodel -nomodel -epect-Dup All - ExtSize All - extsize 200-shift -100-gsize dm -b。

  We binned the dm6 genome (downloaded from https://hgdownload.soe.ucsc.edu/goldenPath/dm6/bigZips/dm6.fa.gz) into 1,001-bp windows with a stride of 50 bp, and filtered windows in the chromosomes chr2L, chr2R, chr3L, chr3R, chr4, chrX, chrY and chrM.对于每个窗口,我们计算了窗口中央201 bp上深度归一化ATAC覆盖范围的对数平均值。我们合并了所有SCATAC-SEQ伪大体的可及性峰,并选择了所有中央151 bp均在任何301 bp中心的峰区域内的垃圾箱。我们在整个基因组中进一步增加了144,424个随机窗口,并具有一系列可访问性水平,以获取具有合理类失衡的数据集,同时在负面示例中保持高度多样性。最后,我们仅包括每个伪块中具有非零ATAC信号的窗口,并删除了具有离群值的窗口 <0.01 or >在任何伪膨胀中为0.999)。我们通过添加每个原始序列的反向补码来增强数据集,并具有相同的输出,最终以464,203个示例(928,406后夸演出)。

  我们使用交叉验证方案具有更强的模型性能。我们根据其染色体位置(考虑一半考虑染色体的位置;有关使用的特定折叠的补充表3),将序列分为十倍,并使用了交叉验证设置,在该设置中,我们使用八个折叠进行训练,一个进行验证和一个进行测试。每个基因组窗口都可以作为培训,验证/调整或测试集的示例。

  我们使用先前优化的DEEPSTARR CNN结构来预测具有次要适应性DNA序列的全基因组增强子活性6。使用DeepStarr架构作为起点,我们进行了高参数网格搜索,以在不同组织的fold01的DNA可访问性验证集中获得最佳性能。最终CNN使用单速编码的1,001 bp长的DNA序列(a = [1,0,0,0],C = [0,1,0,0],G = [0,0,1,0],T = [0,0,0,1])来预测DNA可及性信号。CNN包含四个1D卷积层(过滤器= 256,120,60,60;尺寸= 7,3,3,3; Padding = Same),每个卷积=相同),随后进行了批处理归一化,relu非线性和最大 - 功能(尺寸= 3)。卷积层之后,分别有两个完全连接的层,分别为64和256个神经元,然后进行批处理归一化,依赖非线性和辍学,其中分数为0.4。最后一层映射到可访问性信号输出。手动调整超参数以在一个交叉验证折叠的验证集上产生最佳性能。使用Adam Optimizer57(学习率= 0.005),在Tensorflow V.1.14.0(参考文献56)中在KERAS(https://keras.io/)中实施和培训了这些模型,平均平方误差作为损失函数,批次尺寸为128,以及五个epochs耐心的早期停止。

  为了说明不同训练运行之间的差异并提高模型的准确性和鲁棒性,我们在每个持有的测试折叠上训练了三个复制模型(即每个伪散装组织的30个模型)。在分析了预测的差异并删除未收敛的模型运行(测试集≤0.1的PCC)之后,我们平均每个测试集的重复模型的预测。

  在每个折叠的固定测试染色体上评估了每个模型的性能。我们在所有垃圾箱中使用了PCC进行定量的全基因组评估。

  我们提取了1,001个BP序列,铺在果蝇DM6基因组上(从https://hgdownload.soe.ucsc.edu/goldenpath/goldenpath/dm6/bigzips/dm6.fa.gz下载,使用20 bp的bp stride使用Bedtools sakewindows(paramnovers -parame)(paramnovers -parame)&20’和20’。对于每个模型,我们接下来预测每个基因组窗口的可及性,并为每个核苷酸平均以获得全基因组覆盖率。

  我们使用了DeepExplainer(Deeplift的深层实现,请参见参考文献22,23,24 https://github.com/avantishri/shap/shap/blob/master/master/shap/shap/shap/shap/shap/shap/splainers/deep/deep/deep/deep_tf.py),以符合所有核位的贡献均可访问所有核的贡献。我们使用了每个输入序列的100个二核苷酸改组版本作为参考序列。对于每个序列,将所获得的假设重要性得分乘以序列的单热编码基质,以得出最终的核苷酸贡献得分。我们为10倍的交叉验证中的每一个中的每一个都使用了一个重复模型,并在所有10倍上平均每个单元格类型中的每个序列的得分。使用R软件包GGSEQLOGO(V.0.124)的GGSEQLOGO函数可视化核苷酸的贡献评分。

  为了找到重要的预测基序,我们使用各自的可访问区域分别使用TF-Modisco(V.0.5.12.0(Ref。21))分别对每种组织类型的一个模型折叠的核苷酸贡献得分分别进行了核苷酸贡献评分。我们指定了以下参数:slid_window_size = 15,fallank_size = 5,max_seqlets_per_metacluster = 50000和tfmodiscoseqletstopatternsfactory(trim_to_to_to_window_size = 15,dimital_flank_to_to_do_dd = 5 = 5,final_findow_size我们通过删除信息含量低于0.4的侧翼位置来修剪PWM图案。TF-Modisco发现的主题在扩展数据中详细介绍了转换后的PWM徽标和最接近的转录因子主题数据库的匹配,请访问https://github.com/bernardo-de-bernardo-de-almeida/motif-clustering6(使用Tomtom59 with tomembeck:tomments:kuftsifty:-min -overlap 1)。

  对于我们可以分配给已识别基序的转录因素,我们从伯克利果蝇基因组项目(BDGP; https; https; https; https; https; https; https; insitu.fruitfly.org.org.org.org.org.org.org.org/cgi-bin/ex/insitu.pl,13-16上检索了他们的RNA原位表达数据。序列到访问模型(有关全组织的摘要结果,请参见图1B,以及补充表1,有关完整注释)。此外,我们从同一出版物中检索了匹配的单细胞RNA-seq簇中的转录因子的表达,在那里我们检索了单细胞ATAC-SEQ DATA16。群集分配是通过非负平方矩阵分解完成的(有关详细信息和数据,请参见各自的出版物; https://shendure-web.gs.washington.edu/content/members/members/deap_website/public/)。跨组织的转录因子表达在补充图1C和补充表1中显示。

  我们从CAD4数据库中检索了体内增强器活性数据(参考文献33中的补充表13),其中还包括来自维也纳瓷砖库(https://enhancers.starklab.org/)的所有增强器活动数据。对于5个感兴趣的组织(CNS,表皮,肠道,肌肉,脑特异性)中的每个组织,如果在任何相关的组织注释项中,它们都在13和16阶段之间处于活性时,我们将序列定义为活动性。中枢神经系统:腹神经绳,腹神经索原基的神经细胞,胚胎大脑,胚胎中央脑,胚胎中央脑神经胶质细胞,胚胎中心脑神经元;表皮:胚胎背表皮,胚胎腹表皮,胚胎头表皮,外侧头部表皮,胚胎外侧表皮,胚胎腹腹躯干表皮,腹头表皮表皮表皮,背部表皮表皮表皮表皮表皮表皮表皮表皮表皮;肠道:胚胎后肠,胚胎中肠室,后肠,胚胎/幼虫中肠,前肠,中肠间质细胞;muscle: embryonic/larval somatic muscle, somatic muscle, embryonic somatic muscle, visceral muscle, embryonic/larval visceral muscle, circular visceral muscle fibre, longitudinal visceral muscle fibre, oesophageal visceral muscle, embryonic/larval muscle system, muscle system, dorsal pharyngeal muscle;脑特异性:胚胎大脑,胚胎中央脑,胚胎中央脑神经胶质细胞,胚胎中央脑神经元和VNC中的不活跃:腹神经索,腹神经索的神经细胞。所有其余的序列都被认为对各自组织无效。为了进行数据增强,我们在1,001 bp窗口中的每个序列都铺平了铺平的序列,还添加了每个原始序列的反向补充,并以相同的输出为例,最终以176,424个示例(352,848后夸大)。对于每个组织,我们进一步过滤了重叠的活动序列(最小重叠151 bp) 可访问性的峰值峰值获得清洁阳性集。对于负片段,我们仅选择最多五个不同的序列来保持合理的类失衡。

  我们使用相同的交叉验证折叠来训练,验证和可访问模型的测试。因此,对于每个折叠,测试组在两个训练的两个阶段都完全排除在外。

  在相应组织的第一个模型中学习的结构和权重用于初始化第二个CNN模型,以根据其在体内活性(一种称为转移学习的方法)对DNA序列进行分类。对于肌肉,我们使用内脏肌肉可及性模型初始化了该模型,因为它的性能比通过体细胞肌肉模型初始化(分别为0.14 vs. 0.12)的初始化略高。我们将所有层都可以训练,并将最后一层更改为Sigmoid激活。使用Adam Optimizer57(学习率较小),二进制跨透镜作为损耗函数,批次大小为128,并以二十个时代的耐心训练,对模型进行了训练。

  为了说明不同训练运行之间的差异并提高模型的准确性和鲁棒性,我们在每个持有的测试折叠上训练了三个重复模型(即五个组织中的每一个,总计150个模型)。在分析了预测的差异并删除未收敛的模型运行(曲线下的区域≤0.7)之后,我们平均每个测试集的重复模型的预测。

  我们仅在原始的,未凸显的维也纳瓷砖数据上评估了每个组织模型的模型性能,以具有更加无偏的活性和无效序列。为了具有自信的积极序列,我们认为仅是活动序列,仅在各个组织中活跃的瓷砖中掉落的各自组织的可及性峰(最小重叠)。作为负序列,我们考虑了各个组织中瓷砖不活跃的瓷砖中落下的可及性峰以及无效瓷砖中的所有其他序列。我们使用相应的交叉验证集计算每个序列的预测,其中序列被固定进行测试。使用这组每个组织的活动和非活动瓷砖,使用AUPRC,准确性,F1分数访问模型性能(全部使用R Package Machet v.6.0-90(参考文献60)中的ConfusionMatrix计算出来,并通过不同的预测值(所有正面预测的积极预测序列)在不同的预测倾斜度下)。

  我们还评估了每个组织标记基因基因座的已知组织特异性增强子的序列对活性模型(我们的数据库中的增强子来自转录起始位点:Elav(CNS),GRH(Epidermis),Gatae(Epidermis),Gatae(gatae(gut),gatae(gut),mef2(muscle)(mef2(muscle)和脑)(脑)(脑)(脑)(Extderded Data Data Data Data Data图。表皮WG基因座中没有增强子,因此我们用表皮标记基因GRH代替。

  对于五个组织中的每一个,我们将微调模型的性能与转移学习的性能与(1)在不同组织的DNA可访问性(唾液腺(唾液腺)(唾液腺)(与感兴趣的五个组织相比)的(唾液腺)非常不同;请参见扩展数据图1A)和(2)直接从随机的初始化(无需培训)(2)模型(未通过随机的初始化)(无需训练)(无需训练),这是非常不同的。模型架构,培训和交叉验证方案以及性能评估与上述主要模型相同。

  与上述可访问性模型所述相同。

  用以下代码在bash中生成30亿个随机501 bp DNA序列:CAT /DEV /URANDOM |tr -dc'acgt'|折-W 501 |头-N 3000000000,左右两侧,随机250 bp序列获得1,001 bp的长序列。我们预测了每个组织的一个重复模型(在一个单个CPU上为100,000个序列服用100,000个序列少于10分钟),直到我们预测约有15,000个序列在五个目标组织(CNS,表皮,肠,肠,肌肉,大脑,少于100,000个序列)。从前3,000名候选人中,我们随机采样了100个,并计算了核苷酸的贡献评分,以视觉检查基序含量和布置,以及候选人的预测分数。我们通过预测所选的每个501 bp序列的活性,并确保预测活性与±250 bp的侧面无关。基于这些组合信息,然后我们手动选择每个组织中的八名候选物进行体内测试(补充表2)。We searched the candidate synthetic enhancers against the Drosophila genome (taxid:7227) using Blastn via NIH NCBI Blast https://blast.ncbi.nlm.nih.gov/Blast.cgi with default parameters, except for word size of 7 (smallest and thus most sensitive setting) and expectation value (E value) threshold of 10. Two candidates (activemuscle_synth5和无效的gut_synth9)的匹配值为0.032,对应于22/501 bp共享序列;没有其他候选人的匹配值≤0.1。

  我们使用序列转移学习模型以及直接训练在体内增强子活性数据的活动模型从随机初始化开始。我们为每个组织使用了上面的随机序列选择的相同重复模型。我们计算了每个组织中两个模型的分布中最终40个合成增强剂的百分位数。

  为了获得所选40个候选者的最终预期增强剂活性(=最终得分),我们将每个候选者的501 bp序列放置在实际报告构建体的±250 bp侧面,并通过每个组织的转移学习增强子 - 活性模型对所得的1-KB序列进行了评分。我们为跨验证的十折中的每一个都使用了一个重复模型,并将折叠的预测平均。

  与上面的可访问性模型所述相同,但使用501 bp的合成序列,两侧是质粒的实际序列,在该质粒中插入了用于体内测试的质粒。

  501 bp的合成序列(以上设计;补充表2)是从扭曲的生物科学侧订购的,侧面是吉布森组装的20 bp接头(5',GaattgggaAttcgttaaca; 3',tggtctctctagagagcccgggcgaa)。将序列在最小Hsp70启动子的上游克隆,驱动LACZ报告基因在含ATTB的质粒中的基因,并使用Gi​​bson组装与BGLII线性化。通过Sanger测序验证质粒。每质粒(45 µL; 600 ng µl -1)被送到果蝇胚胎(集成位点:http://flybase.org/reports/fbst00244482.html),并选择了阳性变换剂。根据标准方法将所有构建体注入胚胎中,并通过PHIC31积分酶插入插入ATTP着陆点线M {3×p3-rfp.Attp'} ZH-51C,在染色体位置51C1处产生积分。

  这样的记者系统提供了一个机会,可以在恒定和受控的环境中衡量增强剂活动和增强剂的时空活动模式。4,33,61。HSP70核心启动子已被广泛用于转基因表达和增强子测试(例如,参考文献33),功能与其他发育启动子(例如,DSCP)62。虽然受控的报告基因系统与内源基因调控不同,但我们先前发现82%的增强子活性模式反映了增强子的内源性活性4。

  将相应基因型的胚胎用画笔和水洗净,将收集板从底部的收集瓶中洗净到一个收集瓶中。之后,将胚胎在50%的漂白剂中脱落2分钟。解剖后,用水广泛洗涤胚胎,并最终在收集瓶的网格上收集了1x PBT(PBS,0.1%Triton X-100)。将胚胎在薄纸纸上的网格上干燥后,将其转移到1.5毫升反应管中,并用1量固定溶液(PBS中的4%(v/v)甲醛)和1体积含烷。在500 rpm的水平振动器上固定胚胎20分钟。为了使胚胎变化,固定溶液被吸出,并将1体积的甲醇添加到管中,然后震动。去除七烷相和多余的甲醇,将脱落的胚胎放在管子底部。将胚胎用甲醇洗涤3次,并在-20°C下储存在甲醇或乙醇中。

  如先前所述,进行了整个果蝇RNA原位杂交实验。63。使用DGRC集合(果蝇基因组资源中心(NIH Grant 2P40OD010949))制备ELAV,WG,GATAE,MEF2以及TLL的Digoxigenin标记的RNA抗渗透探针,以及使用DIGERING(NIH Grant 2P40OD0101949)制备了TLL(Roche)根据制造商的指示。从PCR片段中制备了荧光素标记的RNA抗沉思探针,该片段是通过使用荧光素标记混合物(Roche,11685619910)和T7 RNA聚合酶(ROCHE)的PGEMT易于质粒进行扩增的PCR片段。使用抗二戈氧基素 - 过氧酶(Roche 11633716001)和抗荧光素 - 过氧化物酶(Roche 11426346910)(所有抗体(所有抗体)与TSA Plus tsa Plus Cyanin 3(Akoya pll plos)3(akoya pll plosii andy抗体)荧光素(Akoya Biosciences,NEL741001KT)试剂盒。

  用DAPI(Thermofisher Scientific P36931)将两百至三百只双鱼染色的胚胎与各个遗传背景的胚胎安装在延长的黄金安装介质中,并在13-14胚胎阶段的LACZ报告基因表达中分别评分。如果以可重复的方式观察到在所有纯合胚胎中观察到合成增强子驱动的LACZ表达模式,则将增强子评分为活性。为此,选择了一个代表性的纯合胚胎,并使用PLAN PLAN APORAMT 20×/0.8物镜,在Zeiss LSM 880的Zeiss LSM 880飞行器快速共聚焦显微镜上对Z堆栈(1 µm步长,每个胚胎7-12片)进行成像。为了可视化增强子驱动的报告基因与组织特异性标记基因表达相关的表达,在fiji64中进行了Z堆栈的最大投影。

  为了定量预测组织中增强子活性,我们分析了其在与各个组织特异性标记表达的空间关系中的报告基因表达模式,并计算了PCC。为此,我们在Zeiss LSM 880飞机公司使用Plan Apochromat Plan Compocal Micromopt,使用Plan Apochromat 20×20。随后,我们使用标准参数利用JACOP插件来计算两个通道之间的PCC。作为对照,我们使用了双鱼染色的胚胎,该胚胎没有显示记者表达的胚胎或胚胎双鱼染色,用于无关的肌球蛋白重链(MHC,肌肉)和Cacophony(CAC,CAC,CNS)基因。

  所有统计计算和图形显示均在R统计计算环境(v.3.5.1(参考文献66))和使用R软件包GGPLOT2(v.3.2.1(参考文献67))中执行。覆盖数据轨道已在UCSC基因组浏览器中可视化,并用于创建代表性基因组基因局的显示。在所有盒子图中,中央线表示中位数,盒子包括第25至75个百分位数(四分位间距),晶须延伸至1.5×四分位数。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。