单元类型的合成增强剂设计

2025-06-24 05:33来源:本站

  没有使用统计方法来预先确定样本量。使用转基因蝇测试的合成增强剂的数量被确定为每种细胞类型的六个,并且受转基因动物产生实验的可行性的界定。总共产生了68个转基因飞行线。与荧光素酶测定的合成增强剂的数量确定为每类不同类别的十个(在计算机进化,基序嵌入,GAN,GAN,阻遏物和突变步骤中)。总共使用荧光素酶测定法测试了97个序列。从与基因组序列的GC含量相匹配的序列空间中对初始的随机序列(用于序列演化和基序植入)进行采样。在所有实验中,随机选择了适合性别(相等数量的雄性苍蝇和雌性苍蝇)和年龄(小于10天)标准的果蝇。在这项研究中,我们没有执行需要分配给不同组的实验。通过使用增强剂ID进行克隆,转染,抗体染色和荧光素酶实验时,研究人员对此表示盲目。

  使用Scipy(V.1.6.0; RRID:SCR_008058)60计算统计信息。使用matplotlib(v.3.1.1; rrid:scr_008624)61可视化这里和整个手稿的结果。深度学习模型是在python(v.3.7; rrid:scr_008394),tensorflow-gpu(v.1.15; rrid:scr_016345)62,numpy(v.1.1.19.5; rrid:scr_00863333333)63,ipykernel(ipykernel(ipykerne)的情况下,安装了SCR_024813)和H5PY(V.2.10.0; rrid:scr_024812)软件包。从不同的复制实验获得了相同的结果。将几个大脑(至少十个)染色并成像以进行飞行实验。用于主要荧光素酶实验进行了三个生物学重复。对阴性对照荧光素酶实验进行了两次生物学重复。没有对ATAC-SEQ或芯片seq实验进行生物学重复。

  为了测量每个可能的单个突变对给定DNA序列的影响,我们在硅饱和诱变中进行了,如前所述13,48,64。我们首先为给定的500 bp序列生成了所有单个突变的序列(每个核苷酸的三个可能的突变,总计1,500个序列)。我们用深度学习模型对这些序列和初始序列进行了评分。对于选定的类别,我们通过从每个突变的突变序列的得分中减去初始序列的得分来计算DELTA预测得分。

  我们通过使用numpy.random.Choice([“ A”,“ C”,“ G”,“ T”]命令,我们生成了随机的500 BP序列,用于用于In Silico序列演化和基序植入的先前集合。对于每个位置,我们没有使用25%的概率为每个核苷酸选择,而是为每个位置使用了来自苍蝇或人类基因组区域的核苷酸的频率。在这些基因组区域中,相对于侧翼平均而言,该区域中心的GC含量较高。我们在以前的出版物中使用了6,126 KC区域的苍蝇和3,885个MEL区域3,5。

  通过使用上述上述饱和诱变得分,我们以硅序列的演化进行了。对于从随机序列中的计算机演变,我们计算了随机序列的饱和诱变得分。然后,我们选择了所选类别的Delta预测评分最高的突变(对于γ-KC,DeepFlybrain中的35级;对于PNG,对于PNG,DeepFlybrain中的34级;对于MEL,MEL,DeepMel2中的16级)。对于具有一个突变的选定序列,我们重新计算了每个核苷酸的饱和诱变得分,并再次选择了Delta评分最高的突变,并重复此过程,直到初始随机序列累积了20个突变。

  即使我们使用一个简单的目标函数将序列演变引向单个单元格类型,而无需明确惩罚脱离目标单元格类型,但生成的序列仅在目标细胞类型中才有活性。我们认为这是因为我们正在使用的增强剂模型的类型,该模型在特定于细胞类型的可访问区域进行了培训。当使用更多通用模型时,例如在整个ATAC-SEQ轨道上训练的训练,可以使用适应的目标功能并在我们的代码中使用。我们的合成增强剂的细胞类型特异性活性表明:(1)不是为其他细胞类型创建激活剂结合位点;(2)偶然地以随机序列存在的阻遏部位并未破坏其他细胞类型。例如,在KC中,我们观察到激活剂结合位点通常比阻遏物位点长(分别为18和10 bp对,分别为EY,MEF2,MAMO和CAATTA)。这意味着与激活剂位点相比,随机序列更可能偶然地具有多个阻遏物结合位点(扩展数据图1F)。实际上,我们最初6,000个随机序列的平均预测得分接近所有类别的零。这至少可以部分解释为什么早期的增强剂设计工作可能失败。

  我们为KC和PNG使用了6,000个初始随机序列,MEL使用了4,000个。为了产生来自基因组区域的KC增强子,我们进行了六个迭代突变。对于许多细胞类型代码增强剂,我们从视频叶增强剂开始,在每次迭代中,我们手动选择了提高γ-KC预测得分的突变,同时保持光叶预测得分较高。对于仅在KC代码中的多个细胞类型代码增强子的修剪实验,我们手动选择了维持γ-KC预测得分较高的突变,同时降低视频叶预测得分。用于视频叶神经元的深蝇类数量为T1,T2为23,而T4神经元为20和2。

  为了挽救弱或负的设计增强子,我们对从施加和基因组序列进行了五个突变。

  为了用阻遏物结合位点的创建抑制序列,我们通过在进化序列中计算出的计算机饱和诱变图中手动选择单个或双重突变。

  为了探索除选择最佳突变(贪婪算法)外,在计算机序列演化路径中的替代方案,我们选择了从随机序列开始的每个增量步骤上每个序列上的前20个突变。我们遵循此过程,以五个增量突变步骤。从用于生成增强子KC EFS-4的随机序列开始,我们在末尾获得了320万个路径/序列。

  我们使用了一个称为DeepPlainer的网络解释工具(Shap Package65,66; RRID:SCR_021362)来计算每个核苷酸对所选类深学习模型的最终预测的贡献。我们使用随机选择的250个基因组区域来初始化解释器。

  DeepFlybrain模型将单个链作为输入。对于给定的500 bp,我们将解释器的输出乘以单热编码的DNA序列,并将其视为核苷酸字母的高度。DeepMel2模型将向前倾斜并分别作为输入而反向链。在这种情况下,解释器会导致每个链的贡献得分。我们首先获得了每个核苷酸的平均贡献评分,然后将其乘以单热编码的DNA序列以可视化。

  为了识别设计序列的硅硅化过程中TF结合位点,我们使用了TF-Modisco(V.0.5.5.4; rrid:scr_024811)67和cluster-buster(rrid:scr_024810)68。首先,我们计算了每个突变步骤(包括随机序列)上的核苷酸贡献得分。然后,我们分别在每个突变步骤上运行TF-Modisco,以确定出现/消失的模式。The TF-Modisco parameters we used were num_to_samp=5000, sliding_window_size=15, flank_size=5, target_seqlet_fdr=0.15, trim_to_window_size=15, initial_flank_to_add=5, final_flank_to_add=5, final_min_cluster_size=60.在研究了每个突变步骤上鉴定出的TF-Modisco模式后,我们使用KC的突变步骤1和突变步骤4将MEL收集鉴定模式,因为它们包含所有激活因子和阻遏物模式。(较早的步骤没有很好地表示激活剂,因为它们接近随机序列。后来的步骤没有很好地表示阻遏物,因为它们在突变步骤中被破坏了。)我们根据信息内容(阈值= 0.1)修剪了模式,并将其保存为一个.cb文件,以由集群 - 群集使用。

  通过使用TF -Modisco模式,我们运行了群集 - 局部(带有-c 0和-m 3选项),以在每个突变步骤(包括随机序列)上识别基序。我们仅从群集堆结果结果中选择了主题实例,然后合并(通过使用Bedtools v.2.30.0; rrid:scr_006646;ref。69)将基序的重叠命中列入单个命中。我们计算了平均+S.D.在来自每个基序的随机序列的HIT分数上,并使用这些阈值获得了重大的命中。

  使用Cistarget Motif Collection(RRID:SCR_024808)71,使用TOMTOM(RRID:SCR_024809)70进行了类似于TF-Modisco模式的TF结合位点的识别。

  为了确定对γ-KC的预测得分高但在γ-KC中的可访问性较小的区域,我们对整个蝇基因组进行了评分。我们使用了BedTools MakeWindows -G DM6.Cromsize -W 500 -S 50 Command69来创建带有500 bp窗口和50 bp步幅的Binned Fly基因组的坐标。我们删除了不完全是500 bp的区域。这导致了2,750,893个区域将通过DeepFlybrain模型进行评分。我们使用DeepTools/Pybigwig软件包(RRID:SCR_024807)72的统计功能来计算每个箱的平均γ-KC可访问性值。

  要植入到500 bp序列中,我们从随机序列开始。我们通过用结合位点在随机序列上替换核苷酸,将结合位点植入随机序列的每个可能位置。然后,我们用模型对这些序列进行了评分。我们选择了绑定位点位置,该位置给出了最高的预测评分,并在该位置植入了基序。然后,从植入的一个结合位点开始,我们使用相同的过程一一植入了下一个结合位点。选择最大化TF-Modisco模式评分的结合位点的序列被选择为植入物,它们如下:EY,TGCTCACTCAAGCGTAA;MEF2,ctatttatag;Onecut,Atcgat;SR,CCACCC;Sox10,aacaatgggcccattgtt;MITF,GTCACGTGAC;和TFAP2,GCCTGAGGC。我们为KC使用了2,000个初始随机序列,MEL使用了2,000个。从IRF4增强子中获得的较弱的结合位点如下:SOX10_1,GTGAATGACAGCTTTGTT;Sox10_2,tacaagtatctccattgt;mitf_1,atcatgtgaa;MITF_2,GCCATATGAC;TFAP2_1,TCTTCAGGC;和tfap2_2,ccctgtggt。

  当将TF基序以随机序列植入随机位置时,预​​测得分非常低,可能是因为阻遏物位置仍然存在。同样,要能够通过随机序列产生产生功能增强器,需要生成许多序列(即1亿和10亿;参考文献38,73)。

  为了测量执行基序植入时侧翼序列的偏爱,我们汇总了由植入基序的位置对齐的所有序列。然后,我们计算了位置概率矩阵,并通过从每个位置减去0.25来可视化它。

  为了测量不同背景序列对最小KC增强子的影响,我们生成了100万个随机序列,大小为20 bp。然后,我们取代了跨越位置的20 bp,其中EY,MEF2和ONECUT结合位点植入了两侧的6 bp侧面和8 bp的互间米之间的空间。然后,我们用模型对序列进行了评分,并测量了基序植入区域周围不同背景的效果。

  为了培训GAN模型,我们使用了Wasserstein Gan建筑,具有梯度惩罚74,类似于早期的工作47。该模型由两个部分组成:生成器和歧视器。Generator takes noise as input (size is 128), followed by a dense layer with 64,000 (500 × 128) units with ELU activation, a reshape layer (500, 128), a convolution tower of five convolution blocks with skip connections, a one-dimensional (1D) convolution layer with four filters with kernel width 1 and finally a SOFTMAX activation layer.发电机的输出是一个500×4矩阵,它代表一个hot编码的DNA序列。鉴别器将500 bp的单热编码DNA序列作为输入(真实或假),然后使用1D卷积层,带有128个带有内核宽度1的过滤器,一个带有五个卷积块的卷积塔,带有跳过连接,一个平坦的层,最后是一个带一个单位的密集层。

  卷积塔中的每个块由一个relu激活层组成,然后是1D卷积,带有128个带有内核宽度的过滤器。我们使用的批量大小为128。对于生成器的每个train_on_batch迭代,我们为歧视器执行了十个train_on_batch迭代。我们将Adam Optimizer使用0.0001的Learning_rate,0.5的beta_1和0.9的beta_2。我们培训了大约260,000批次培训的型号,用于KC和大约160,000批MEL的批次培训迭代。

  我们在人类模型中使用了6,126 kC区域的飞行模型和3,885个MEL区域,我们在以前的出版物中确定了该模型,作为训练模型的实际基因组序列。训练后,我们通过使用每10,000批批次训练迭代的发电机来对MEL采样6,144个(48×批量尺寸)序列和3,968(31×批量尺寸)序列。通过计算噪声预测,然后使用numpy.argmax()命令将预测转换为单热编码表示,从而生成了采样的合成序列。

  为了与GAN生成的序列进行比较,我们通过使用包含软件包(RRID:SCR_013488)75的CreateBackgroundModel函数在不同顺序中生成随机序列,基于我们用来训练GAN的相同基因组区域。

  在培训Chrombpnet模型中,我们使用了Chrombpnet Github存储库(https://githaub.com/kundajelab/chrombpnet/chrombpnet/chrombpnet/tree/tree/tree/tree/v1.3-pre-reeles),使用了预发行版本(v.1.3-pre-relese; rrid:scr_024806)。我们遵循教程中所述的所有预处理和训练步骤:从MM001 BAM文件中的对齐ATAC读取中,我们制作了TN5插入站点的大翅膀,训练了一个偏置模型,该模型可以预测非峰值区域中的TN5结合位点,然后在Chrombppnet模型中使用,以过滤TN5 BIAS。Chrombpnet使用2,114 bp DNA序列作为输入,并预测了中央1,000 bp的ATAC轨道和自然对数读数的自然对数计数。为了能够得分500 bp的DNA序列(IRF4增强剂和合成增强剂),我们使用了由集成盒包围的克隆/集成增强子序列的侧翼序列。绘制了标量和轨道预测。补充代码中提供了侧翼序列。

  我们使用Enformer模型(RRID:SCR_024805)在Silico CRISPR实验中进行。我们以IRF4增强剂为中心(Chr。6:396104:396604),采用了IRF4基因座(Chr。6:339010:453698)。我们用随机/进化/抑制的序列代替了内源性IRF4增强子,并计算了相关细胞类型的预测评分。将预测分数绘制为显示整个基因座。对于DNase和Chip-Histone:H3K27AC轨道,使用跨越增强子位置的中间三个箱或一个箱来计算平均值。对于笼子轨道,使用一个跨越IRF4转录起始位点的一个bin计算平均值。我们用来获得预测分数的曲目索引如下:4,832:笼/黑色素瘤细胞系:G-361,162:DNase/SK-Mel-5,2,162:芯片 - 曲线:H3K27AC/foreskyk27ac/foreskin/foreskinkinkytinac/foreskinkinkiply belanocytemelocyte belanocyte bealocyte newborn newborn。

  为了衡量设计增强子对基因表达,染色质可及性和组蛋白修饰的位置效应,我们将合成增强剂移动了IRF4基因座周围的合成增强剂。(1)至10 kb上游,(2)5 kb上游(位于IRF4基因的启动子旁边)和(3)原始位置下游的17.5 kb。

  合成序列是从PTWIST入口载体中的Twist Bioscience排序的。通过IDT将基序植入和双编码序列与额外的5'CACC序列合成为双链DNA(Gblocks Gene片段)。从IDT订购了49 bp的基序植入序列,作为正向和反向单链DNA寡寡寡做,然后在95°C退火5分钟,并在1小时内冷却至RT。然后将双链的DNA序列克隆到pentr/d-topo质粒(Invitrogen)中。

  所有序列均在修饰的pH-Stinger Vector76中引入,其中包含核GFP,HSP70启动子,Gypsy绝缘子和ATTB位点进行PHIC31整合,并通过Gateway LR LR重组反应(Invitrogen)。总共2 µL反应转化为25 µL恒星化学竞争细菌(Takara)。使用Nucleospin质粒转染级迷你试剂盒(Macherey-Nagel)进行质粒微型培训,并通过Sanger测序进行测序,以确认正确插入目的地质粒中的区域。确认序列后,使用无核XTRA内毒素MIDI KIT(Macherey-Nagel)进行质粒中质。接下来,将质粒送到Flotorf(瑞士)进行果蝇胚胎(21F染色体上的21F位点)注射,并根据眼睛的颜色选择阳性转化体。

  果蝇在25°C的基于酵母的培养基上在12小时/12小时的日/夜光周期下饲养。

  在PBS中剖析了成年苍蝇(果蝇果蝇,少于10天,同样混合的性别)的大脑,并转移到管中,以在PBS中的4%甲醛中固定20分钟。除非另有说明,否则所有孵育均在室温下进行。将大脑在PBS中用0.3%Triton-X(PBST)洗涤3次,持续10分钟,然后将它们放入阻塞溶液中(PBST中的5%正常山羊血清(ABCAM))3小时。我们将大脑在4°C下孵育过夜,中的原代抗体(兔抗GFP,IgG(Invitrogen),1:1,000)和小鼠抗Dachshund,mab dac1-1(dshb),1:250)。然后将大脑在PBST中洗涤3次,每次10分钟,并与在阻断溶液中稀释的荧光偶联的二抗孵育2 h(Alexa Fluor 488驴抗兔IgG(Invitrogen)(Invitrogen),1:500,1:500和Alexa Fluor 647 goat goat Anti Anti抗Mouse igg(Inti),1:500)。接下来,将大脑在PBS中洗涤3次,持续10分钟。最后,将样品与延长的玻璃抗固定剂(Invitrogen)一起安装在显微镜载玻片上。

  对于图像采集,使用了配备了Airyscan2的Zeiss LSM900显微镜与×20物镜(Plan Apo 0,80空气)结合使用。该设置由Zen Blue(V.3.4.91,Carl Zeiss显微镜GmbH)控制。GFP用488 nm的蓝色二极管100 MW激发,并使用发射过滤器BP450-490/BS495/BP500-550收集瓷砖图像。

  500 bp的合成序列是从PTWIST入口载体中的Twist Bioscience排序的。500 bp区域通过网关LR重组反应(Invitrogen)(Invitrogen)引入PGL4.23-GW荧光素酶报道载体(Promega),并将2 µL反应转化为25 µL恒星化学胜任细菌(Takara)。

  Synthetic sequences shorter than 150 bp were ordered as gBlocks from IDT (Integrated DNA Technologies) with 5′ (cccgtcgacgaattctgcagatatcacaagtttgtacaaaaaagcaggct) and 3′ (acccagctttcttgtacaaagtggtgataaacccgctgatcag) adaptors.PGL4.23-GW荧光素酶报道矢量通过使用引物lin_psa335_short_me_for(GTGGTGATGATAAACCCGCTGATCAG)和LIN_PSA335_SHORT_SHORT_ME_REV(TCTGCAGAATTCGTCGCGACGGGGG)线性化。将短序列和线性化载体组合在雾化器反应中(新英格兰生物标记)中,并将2 µL的反应转化为25 µL恒星化学竞争的细菌。

  对于所有克隆程序,使用Nucleospin质粒转染级微型试剂盒(Macherey-Nagel)进行质粒小型质子,并用Sanger测序测序,以确认对目的地质粒中区域的正确插入。

  为了用合成增强剂生成稳定的细胞系,将合成序列克隆到PSA351_SCP1_INTRON_EGFP VECTOR(AddgeneNo。206906)中。通过使用引物lin_psa351_for(ctgagctccctagggtact)和lin_psa351_rev(cgactcgagggctagtctc)对矢量进行线性化。合成序列从各自的PGL.23-GW载体及其各自的底漆对:MM_EFS_1_FOR(GAGACTAGCCTCGAGTCGCTGCTGTTTGACCATTGAACCATTGTGTTACGATTGG)和MM_EFS_EFS_1_REV(agtacccctagggctcagctcagcaattttttttttttttttgcgcgtgac)用于MM-EFS-1序列;MM_EFS_4_FOR(GAGACTAGCCTCGAGTCGTGATGTATGTATTCCCCATGCCCTCA)和MM-EFS-EFS-4序列的mm_efs_4_rev(agtaccctaggggtccaagggtttgttgttgttatgtatgttatatatattatatatatattatatatatatataacga);MM_EFS_8_FOR(GAGACTAGCCTCGAGTCGCACGACGACAAAGCCTCAT)和mm-efs-8序列的MM_EFS_8_REV(agtaccctaggggggtcacactgtacaggcatcccgcgc);IRF_4_FOR(gagactagcctcgagtcggctgcctgcctgtgtgtgtgtgatttaag)和irf_4_rev(agtaccctagggggtcaactcaactgactgactgagctggcatcagagacgggg)用于IRF4序列。将PCR扩增子和线性化载体组合在雾化器反应中,并将2 µL反应转化为25 µL恒星化学竞争的细菌。使用Nucleospin质粒转染级迷你试剂盒(Macherey-Nagel)进行质粒微型培训,并通过Sanger测序进行测序,以确认正确插入载体中区域的插入。确认序列后,使用核对XTRA无内毒素最大毒素试剂盒(Macherey-Nagel)进行质粒最大值。

  将MM001和MM047接种在24孔板中,并用400 ng的PGL4.23-ENHANCER载体+40 ng的PRL-TK Renilla Vector(Promega)用Lipofectamine 2000(Thermo Fisher Scientific)转染。作为阳性对照,分别用于MM001和MM047,使用了先前发布的增强剂MLANA_5-I,IRF4_4-I和TYR_-9-D或ABCC3_11-I和GPR39_23-I和GPR39_23-I。转染后一天,通过遵循制造商的协议,通过双脂肪酶报道测定系统(Promega)测量荧光素酶活性。简而言之,将细胞用100 µL的无源裂解缓冲液裂解15分钟,500 rpm。在每个孔中添加了20 µL裂解液的20 µL裂解物在Optiplate-96 hb(Perkinelmer)的孔中转移,并在每个孔中添加100 µL荧光素酶测定试剂II。在Victor X发光计(Perkinelmer)上测量了荧光素酶生成的发光。将总共​​100 µL的止动剂和GLO试剂添加到每个孔中,并再次测量发光以记录肾素活性。通过计算比率荧光素酶/肾素的比率来估算荧光素酶活性;通过仅包含试剂的空白井计算的比率将该值归一化。对于MM001,每条条件进行了三个生物学重复,MM047进行了两种生物学重复。

  通过使用Lipofectamine 3000试剂(Thermo Fisher Scientific),将慢病毒质粒转染在HEK 293 T细胞中。将总共​​30 µg的合并质粒DNA与20 µg的PAX2质粒(Addgeneno。12260; RRID:Addgene_12260)和10 µg MD2.G质粒(Addgene no.12259; Rrid:Addgene:Addgene:Addgene:Addgene:AddGene_12259)组合。转染后48小时,收集培养基并刷新。转染后72小时,第二次收集培养基。将两个中等集合组合在一起,并以1,500 rpm的速度旋转5分钟。用钝针和注射器小心地收集上清液,并通过45 µm的注射器盘过滤器(Millex-HV Millipore)过滤到Ultra-15 MWCO100离心滤清器(Amicon)中。含有上清液的集中器管以4,000 rpm旋转约45分钟,直到达到所需的250 µL的体积。将病毒悬浮液等分并存储在-80°C下。

  将MM001细胞以每孔的250,000个细胞的密度接种到六孔板中。通过在8 µg mL -1下添加5-40 µL慢跑病毒和聚甲烯来进行转导。将细胞孵育24小时,然后用PBS和生长培养基清洗聚甲烯。3天后,细胞分开并进一步扩展。

  如先前所述,使用测序(OmniAtac-Seq)进行转座酶可访问的染色质(Omniatac-Seq)78。简而言之,将50,000个用增强子池转导的50,000 mm001细胞重悬于50 µL冷的ATAC-SEQ重悬浮缓冲液(RSB; 10 mM Trishcl PH 7.4、10 mm NaCl和3 mm MGCL2)中,其中包含0.1%NP40,0.1%tween-20和0.01 digitninnIn和0.01%digitninnin和0.1%naCl和0.1%naCl 2和3 mmmmgcl2。该细胞裂解反应在冰上孵育3分钟。裂解后,加入了1 ml含有0.1%Tween-20的ATAC-SEQ RSB,并将试管倒入混合。然后将核在500克(4°C)固定角离心机中以500克离心10分钟。除去上清液,并将细胞核重悬于50 µL的转置混合物中(25 µL 2×TD缓冲液,2.5 µL转座酶(Nextera TN5转座酶,Illumina),16.5 µL PBS,PBS,0.5 µL,0.5 µL,0.5 µL,1%DigitOnin和0.5 µL和0.5 µL和10%Tweenn-lov of 10%TweenEn-love-20 ref of 10%Tweenn-le-20六次。将转置反应在37°C的热块中孵育30分钟。通过Minelute(Qiagen)清理反应。Transposed DNA was amplified (ten cycles) with primers i5_Indexing_For (aatgatacggcgaccaccgagatctacacnnnnnnnntcgtcggcagcgtcagatgtg) and i7_Indexing_Rev (caagcagaagacggcatacgagatnnnnnngtctcgtgggctcggagatgt).所有库均在NextSeq2000仪器(Illumina)上进行测序。

  使用BCL2FASTQ(V.2.20; RRID:SCR_015058; https://emea.support.illumina.com/sepencing/sequencing_software/bcl2fastq-conversion-software.html)对读取进行读取。Trimgalore修剪了适配器(V.0.6.7; RRID:SCR_011847; https://github.com/felixkrueger/trimgalore)。使用BWA-MEM2(v.2.2.1; rrid:scr_022192)79,将读取映射到自定义的HG38基因组,该基因组包含集成序列作为额外的染色体。通过使用samtools(v.1.16.1; rrid:scr_002105)80,对读取和去除读取,并从黑名单区域(https://wwwww.encodeproject.org/files/files/encffiles/encfff356lfx/)进行读取。使用DeepTools(V.3.5.0; RRID:SCR_016366)BAMCoverage72生成了具有RPGC归一化的Bigwig文件。

  通过遵循2×107 mm001单元格上的Myers Lab芯片– Seq协议V.011014进行芯片seq。总共使用5 µg兔抗ZEB2(1 mg ml-1;贝塔基A302-473A; RRID:AB_3076293)用于芯片。根据Illumina Truseq DNA样品制备指南,总共使用15 ng免疫沉淀的DNA进行文库制备。简而言之,对免疫沉淀的DNA进行了末端修复,A尾并连接到稀释的测序适配器(1/100)。使用i5_indexing_for和i7_indexing_rev(18个周期)和珠纯化(Agencourt ampurexp,Analis)进行PCR扩增后,使用NextSeq2000仪器(Illumina)对具有300-500 bp的片段进行了300-500 bp的库。

  使用BCL2FASTQ(v.2.20; rrid:scr_015058)对读取进行读取。Trimgalore修剪了适配器(V.0.6.7; RRID:SCR_011847)。使用BWA-MEM2(v.2.2.1; rrid:scr_022192)79将读取映射到HG38。通过使用samtools(v.1.16.1; rrid:scr_002105)80,对读取和去除读取,并从黑名单区域(https://wwwww.encodeproject.org/files/files/encffiles/encfff356lfx/)进行读取。使用DeepTools(V.3.5.0; RRID:SCR_016366)BAMCoverage72生成了具有RPGC归一化的Bigwig文件。使用MACS2(V.2.1.2.1; rrid:scr_013291)CallPeak81调用峰值。

  MM001,MM047和MM099从G. Ghanem获得,并在HAM的F-10营养混合物(Invitrogen)+10%FBS(Invitrogen)中培养。我们通过检查细胞系的基因组,转录组和表观基因组谱12,82,83来验证这些细胞系。用于慢病毒的HEK293T是从ATCC(目录号CRL-3216; RRID:CVCL_0063)获得的,并在DMEM(Invitrogen)+10%FBS(Invitrogen)中培养。在实验前测试了细胞系对支原体污染的测试,并被发现为阴性。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。