癌症和种系中TOP1转录相关诱变的签名

2025-06-23 05:56来源:本站

  补充表1中提供了这项工作中使用的所有质粒的描述。酿酒酵母记者是由DNA合成(Geneart Gene Synthesis,Thermo Fisher Scientific; glblocks Gene fragments,idt)和常规克隆(限制,结扎和quikikchange Site-Site-Site-dendirected utagenesis)产生的。最终构造(PTCW12)用于酿酒酵母报道菌株结构和波动测定。使用DNA合成和常规克隆策略的组合以类似的方式生成了哺乳动物细胞(PTCW14)的网关兼容报告基因构建体(PTCW14)。然后使用Gateway克隆将记者盒移至PAAVS-NST-CAG-DEST(来自K. Woltjen的礼物; Addgene Plasmid,80489)51,以生成PTCW15,以将其靶向人类AAVS1基因座。

  为了增加2 bp串联重复的频率,在1 kb HPH的编码序列(肺炎肺炎氢霉素耐药基因(Hygror)52中引入了同义取代。使用Python,一次移动一个5码(15台)滑动窗口一个密码子,以确定所有可能的同义排列。根据串联二核苷酸的重复序列长度对排列进行排名,其排名序列最高用于替换整个密码子,从而优先于单核苷酸重复序列二核苷酸重复序列。然后对编辑的密码子从随后的置换中审查。随后,为了消除在2 bp删除或等效移码突变后会产生的停止密码子,在可能的情况下,进行了进一步的同义变化,以保留串联重复序列。

  这项研究中使用的所有酿酒酵母菌株(补充表2)均具有同源性,By4741(参考文献53),并在30°C下生长。使用单步等位基因替换替换TOP1和RNH201开放式读取框,使用带有选择盒的质粒模板产生的PCR产品(补充表2)和含有60-核苷酸同源性的引物直接在开放阅读框架的下游和下游。通过PCR证实基因缺失。使用引物AGP1-MX6-F和AGP1-MX6-R(补充表3)使用PTCW12扩增的PCR产物在AGP1基因座上插入2 bp删除报告基因。通过PCR和Sanger测序证实了正确的记者插入。在YPD培养基(10 g -1酵母提取物,20 g l -1双肽,20 g l -1葡萄糖,20 g l -1琼脂)上进行选择的生长,并补充了hygromycin b(300 mg l -1),nourse刺蛋白(100 mg l -1)和/或g418(1 g418),或者iment iment(1 g418 i介质)没有氨基酸,完全补充单液液混合物(Formedium),20 g l -1葡萄糖,20 g l -1琼脂)。

  如前所述进行波动测定54。酵母在YPD培养基中用湿霉素B(300 mg l -1)生长过夜,在YPD上铺路,并在30°C下生长,以获得源自无潮突变的单个细胞的单个菌落。对于每个菌株,然后使用16个独立的菌落接种5 ml ypd,并在250 rpm的摇动下在30°C下生长3天。通过离心颗粒细胞并重悬于1 mL H2O中。将每种培养物的未稀释悬浮液(每板100μl)放在补充了1 g L -1 G418的2 YPD板上,除了使用10-2稀释的RNH201Δ。此外,将每种悬浮液连续稀释至10-6,其中每板100μl在2 YPD板上散布,以估计每个培养物的可行细胞总数。将板在30°C下孵育2-3天,并计算菌落。在Microsoft Excel 2016中针对每种单个培养物确定突变率,并使用中间55的Lea Coulson方法计算的每个菌株的总率。每种培养物的突变体数量被排除,排名第4和13的突变体数量用于计算定义95%CI56的下层和上限的速率。每种独立培养物的单个G418抗性菌落用于确定框架变速突变的光谱。使用FastStart PCR Master Mix(Roche)和直接菌落PCR(在95°C下为5分钟,在95°C,在95°C,在95°C,30 s 30 s,在58°C的35°C中,使用FastStart PCR Master Mix(Roche)和直接菌落PCR(58°C,在58°C,在35°C,在58°C,在58°C中,使用FastStart PCR Master Mix(5 min),在两个重叠的扩增子(S297F和S1113R; S752和S1658R)中放大了一个1.3 kb区域。在72°C下为45 s。每个扩增子使用补充表3中描述的引物对Sanger进行了测序,并使用Sequencher v.5.4.6(Gene Codes Corporation)和/或突变测量师V.3.30(SoftGenetics)进行了分析。计算出1,032 bp的序列的突变速率(每BP),其中可能发生生产性移料突变。

  补充表4中提供了本研究中使用的人类细胞系的摘要。所有细胞均在37°C和5%CO2下生长,使用原始实验室中的STR DNA分析进行了认证,并通过常规测试证明是支原体阴性。Hela Cell(英国伯明翰大学的G. Stewart的礼物;最初是从ATCC购买的)在Dulbecco修改后的Eagle培养基(DMEM; Gibco/Thermo Fisher Scientific)中种植,并补充了10%胎牛血清(FBS),50 U ML -1 con -1 Penicicillin和50μg -ML -ML -ML -ML -1链球菌。HTERT RPE-1细胞(来自加拿大多伦多大学的D. Durocher的礼物;最初是从ATCC购买的)在DMEM/F12培养基混合物(Gibco/Thermo Fisher Scientific)中种植,并补充了10%FBS,50 U ML-1 Penicillin和50μgMl-1 Penicillin和50μgML-1链霉素。2 bp删除记者使用已发表的CRISPR -CAS9靶向方案51集成了HeAVS1安全港基因座的AAVS1安全港基因座。使用Invitrogen Lipofectamine 2000(Thermo Fisher Scientific),用PXAT2和PTCW15在Opti-MEM还原培养基中转染HeLa细胞。48小时后,在含有500 µg mL-1 G418的培养基中进行了重测,在另外48小时和在选择性培养基中的第二轮中,单个细胞使用BD FACSJAZZ仪器(BD Biosciences)将单个细胞分类为96孔板。通过PCR筛选所得的G418抗性克隆,以在正确的基因座进行记者积分,无积分AAVS1的保留和所得PCR产物的Sanger测序。如先前所述的57,使用PTCW16通过荧光原位杂交(FISH)证实了单基因分析的整合,以生成荧光标记的探针。检查了选定克隆的完整记者序列,并使用Prime Star Max Max Max Master Mix(Takara Bio)进行了1.9 kb片段,并带有引物Hygror_up和Puror_rev(在70°C时在98°C,15 s的10 s循环,在70°C下为15 s,在72°C下在72°C下进行2分钟),随后是Sangerencers sequencect sequencect sequencect sequencersing (补充表3)。为了生成RNAseH2A-KO报告细胞,使用Lipofectamine 2000转染了选定的父母HELA记者克隆克隆(补充表1),然后转染后48小时,转染后48小时,单个EGFP表达细胞表达单个EGFP的细胞被分类为96范围内的铜板和绿色植物,直到形成了colone和Growone。初始筛选是基于PCR扩增(RNASEH2A-EX1F和RNASEH2A-EX1R)的rnaseh2a的CRISPR-CAS9靶向区域的RNASEH2A-EX1R),其突变由Sanger测序确定的选定克隆中存在。然后通过免疫印迹,RNase H2酶活性测定和碱性凝胶电泳来确定细胞RNase H2状态,以确定基因组DNA的核糖核苷酸含量(下面提供了详细的方法)。

  在没有选择的情况下,从冷冻储备中回收了抗湿霉素的HELA报告细胞(400 µg mL -1湿霉素B)。第二天,每条生产线将10孔的10孔板上用2,000个孔接种。用对细胞系的身份视而不见的操作员进行实验。在非选择性条件下培养细胞,随后在24孔,6孔板和最终的T75烧瓶中进行了培养,其中它们生长为汇合。然后使用Gibco Tryple(Thermo Fisher Scientific)分离细胞,并使用Moxi Z自动细胞计数器计数细胞。连续稀释后,将1,000个细胞用于每种培养物中的两个10 cm板中,并生长14天以确定电镀效率。将所有其他细胞铺成两个10 cm的板,并在4小时后加入0.5 µg ml -1紫霉素,随后每2-3天更改培养基14天,以去除死细胞并维持0.5 µg ml -1的尿霉素浓度。

  为了建立突变光谱,通过刮擦去除菌落,然后在96孔板中培养。当汇合时,将细胞用75μl直接裂解试剂(Viagen Biotech)和0.4 mg ml-1 PCR级蛋白酶K(Roche)裂解,在55°C下加热过夜,然后在85°C下进行45分钟。每个独立培养物仅用于PCR扩增和Sanger测序,以确定水格编码序列中突变的性质。使用Prime Star Max Max Master Mix(Takara Bio),Hygror_up和H1327R引物(在98°C下为10 s,在70°C时,在72°C下2分钟,在72°C下为15 s,在72°C下为15 s,在72°C下为15 s的40次循环,将包括Hygror的1.24 KB区域放大。然后使用其他引物(补充表3)进行Sanger测序,并使用突变测量师V.3.30(SoftGenetics)鉴定突变。所有突变体均均与indel突变点相等的高度均具有相等的高度,这与所有记者线中的两个报道副本的存在一致。正如Fish指示在一个AAVS1基因座处的记者存在的那样,我们推断出该基因座的两个记者的两个副本被插入。作为2 bp的删除或两个水拷贝中的同等移码突变,将相关的纯编码序列带入翻译的阅读框架中,我们校正了两个副本的突变率计算(每个bp)。

  为了确定菌落数,用PBS洗涤板,在PBS中用2%甲醛固定10分钟,用水冲洗,并用0.1%晶体紫罗兰溶液染色10分钟。然后用水洗涤板,然后将其干燥,然后再计算菌落。计数后,实验是以一种毫无盲的方式进行的。确定了Microsoft Excel 2016中每种单独培养的突变率,并使用中位数的Lea Coulson方法计算了野生型和KO菌株的总体速率。对每种培养物的突变体数量进行了排名,并使用适当的等级56来计算定义95%CI的上限和上限的速率。

  如前所述58,制备了全细胞提取物(WCE),以通过免疫印迹和RNase H2活性测定来确定RNase H2亚基的蛋白质水平。通过在4-12%的Nupage凝胶上通过SDS -PAGE分离出等量的WCE蛋白质,并转移到PVDF上。在5%牛奶中探测膜(w/v;奇迹原始干燥脱脂),TBS+0.2%Tween-20(v/v),其具有以下抗体:绵羊抗RNase H2(针对人重组RNase RNase H2,1:1,000)14;小鼠抗RNASEH2A G-10(Santa Cruz Biotechnologies,SC-515475,A1416,1:1,000);兔子抗GAPDH(ABCAM,AB9485,1:2,000,GR3380498-1)。为了检测,我们使用了兔抗肩him骨免疫球蛋白/HRP(Dako,P04163,00047199,1:2,000);山羊抗小鼠免疫球蛋白/HRP(Dako,P0447,20039214,1:10,000);抗兔IgG,HRP连接抗体(细胞信号技术,7074s,29,1:10,000);Amersham ECL Prime Western印迹检测试剂(GE Healthcare Life Sciences)和ImageQuantlas4000设备或IRDYE二级抗体和Odyssey CLX成像系统(LI-COR Biosciences)。未撰写的免疫印迹在补充图1中呈现。

  为了评估细胞RNase H2活性,如前所述进行了基于FRET的荧光底物释放测定法。简而言之,通过测量包含单个嵌入核糖核苷酸的双链DNA底物的裂解来确定RNase-H2特异性活性。针对同一序列的仅DNA底物的活性用于校正背景活动。通过将3'-荧光素标记的寡核苷酸(gatctgagcctgggagct或gatctctgagcctgggagct; yppercase dna,小写RNA,小写RNA)退火来形成底物。在100μl反应缓冲液(60 mM KCl,50 mM Tris – HCl pH 8.0、10 mM MGCL2、0.01%BSA,0.01%Triton X-100)中进行反应,并在24°C下在黑色96韦尔96韦尔96韦尔的平底板(Costar)中进行250 nm底物。如上所述制备WCE,使用Bio-Rad Bradford蛋白质测定法确定蛋白质浓度,并且每反应的最终蛋白浓度为50ngμl-1。使用Victor2 1420多标签计数器(Perkin Elmer),每5分钟读取(100 ms),每5分钟,最多90分钟,带有480 nm的激发滤波器和535 nm的发射过滤器。使用背景减法后的初始底物转换来计算RNase H2酶活性。

  为了确定在核DNA中存在过多的基因组包含的核糖核苷酸,如先前所述58进行了RNase-H2处理的基因组DNA的碱性凝胶电泳。In brief, total nucleic acids were isolated from pellets from around 1 million cells by incubation in ice-cold buffer (20 mM Tris-HCl pH 7.5, 75 mM NaCl, 50 mM EDTA) with 200 µg ml−1 proteinase K (Roche) for 10 min on ice, followed by addition of N-lauroylsarcosine sodium salt (Sigma-Aldrich) to a final concentration of 1%.使用苯酚 - 氯仿提取核酸,然后将异丙醇定位并溶解在无核酸酶的水中。For alkaline gel electrophoresis, 500 ng of total nucleic acids was incubated with 1 pmol of purified recombinant human RNase H2 (isolated as previously described59) and 0.25 µg of DNase-free RNase (Roche) for 30 min at 37 °C in 100 µl reaction buffer (60 mM KCl, 50 mM Tris–HCl pH 8.0, 10 mM MgCl2,0.01%Triton X-100)。核酸被乙醇凝聚,溶解在无核酸酶的水中,并在50 mm NaOH(1 mM EDTA)中以0.7%琼脂糖凝胶分离250 ng。过夜电泳后,将凝胶中和在0.7 M Tris -HCl pH 8.0、1.5 m NaCl中,并用SYBR Gold(Invitrogen)染色。成像是在FLA-5100成像系统(Fujifilm)上进行的,并使用AIDA Image Analyzer v.3.44.035(Raytest)生成光密度测定图。

  TP53-KO HTERT RPE-1细胞没有RNASEH2A或RNASEH2B的功能丧失突变,由CRISPR – CAS9基因组编辑引入了D. Durocher的礼物,以前已被描述为Durocher的礼物。使用BD FACSJAZZ仪器(BD Biosciences)将RNASE-H2-H2-H2-h2-h2-h2-h2-h2-h2-h2-h2-h2-h2-h2-ko和rnaseh2b-ko细胞单细胞分为96孔板。每个祖先种群的冷冻保存和基因组DNA分离,将每个克隆的多个克隆扩展到汇合的T75瓶中。此外,将线再次分类为96孔板以开始突变蓄能实验。随后在24孔,6孔板和T75烧瓶中的生长扩大培养物,直到汇合(大约25个人口加倍),并且单细胞分类和扩张的这一过程又重复了四次,为捕获以来以来发生的突变提供了瓶颈。从第一次到最后一个单细胞排列,总共发生了大约100个人口加倍,并扩大了这些终点种群的冷冻保存和基因组DNA分离的扩展。

  如先前所述的58,用于碱性电泳和WGS,使用苯酚提取分离基因组DNA。图书馆的准备和测序由爱丁堡基因组学进行。使用Illumina seqlab特异性Truseq PCRFRe高吞吐量库制备套件制备库,根据制造商的说明,DNA样品剪切到平均插入物尺寸为450 bp。使用V2.5化学的Illumina Hiseqx仪器上的配对末端读数对库进行测序,以实现最低平均基因组的测序深度,每个样品30倍。

  Villin-CRE+TRP53FL/FLRNASEH2BFL/FL小鼠在C57BL/6J背景上具有TRP53和RNASEH2B的上皮特异性缺失,先前已被描述为先前29。根据基督教 - 阿尔布雷希特大学的动物护理指南,对动物实验进行了适当的许可,并与国家和国际法律和政策一致。没有进行随机分组或盲目。使用QIAGEN DNEAGEN -DNEAGEN DNEASY血液和组织Kit,从雌性小鼠(52周龄)中分离出从小肠道肿瘤(TRP53 - / - RNASEH2B - / - )和肝组织(TRP53+/+RNASEH2B+/+)中分离出成对的肿瘤 - 正常DNA。爱丁堡基因组学使用Illumina DNA无PCR图书馆根据制造商的说明进行了图书馆的准备和测序。使用V1.5化学,爱丁堡基因组学对Novaseq 6000进行了配对末端测序。获得了肝样品的平均全基因组测序深度至少30倍,肿瘤样品的平均测序深度为60倍。

  使用NCBI序列读取存档(SRA)的RNH201ΔPOL2-M644G的WGS SRA文件使用SRA Toolkit V.2.5.4-1(SRA Toolkit Development Team; http://ncbi.github.io/sra-sra/sra/sra/sra-tools/)。将FASTQ读取与GSE56939_L03_REF_V2参考Genome60(补充表5)对齐,并使用BWA-MEM(V.0.7.12)61创建排序的BAM文件,并用Samblaster(V.0.1.22)62进行重复。为了选择高质量的indel变体,gatk(v.3.6-0)单倍型呼叫者(无基本质量得分重新校准)63使用“硬过滤器”( - 滤波器表达)进行63个变体调用(QD) < 2.0 || FS > 200.0 ||readposranksum < −20.0”) . Filtering for strain-specific variants was performed as previously described60, with minor modifications. The filters were as follows: (1) eliminate variants shared with an ancestral clone; (2) required ≥20 reads for variant allele in descendent; (3) exclusion of repetitive sequences as defined in ref. 60; and (4) reference/variant depth ratio 0.4–0.6, <0.4 if homozygous variant allele.

  FASTQ files were converted to unaligned BAM format and Illumina adaptors were marked using GATK (v.4.1.9.0) FastqToSam and MarkIlluminaAdapters tools64. Reads were aligned to the human genome (hg38, including alt, decoy and HLA sequences) using BWA-MEM (v.0.7.16)61 and read metadata were merged using GATK’s MergeBamAlignment tool. PCR and optical duplicate marking and base quality score recalibration were performed using GATK. Variants from NCBI dbSNP build 151 were used as known sites for base quality score recalibration. Post-processed alignments were genotyped using Mutect2, Strelka2, Platypus and SvABA using somatic calling models for each pair of ancestral and end-point cultures, as described below.

  FASTQ processing and alignment were performed as for RPE-1 WGS analysis, using the GRCm38 mouse genome reference and known variant sites from the Mouse Genomes Project65 (REL-1807-SNPs_Indels) for base quality score recalibration. Somatic variant calling of post-processed alignments was performed using Mutect2, Strelka2, Platypus and SvABA for each tumour-liver pair, as described below. Somalier v.0.2.12 (https://github.com/brentp/somalier) was used to confirm each paired tumour and liver sample originated from the same animal.

  Data generated from Genomics England 100,000 genomes and ICGC-CLL studies were analysed. In these respective studies, informed consent for participation was obtained. Ethical approval for Genomics England 100,000 genomes project: East of England and South Cambridge Research Ethics Committee; CLL-ICGC: International Cancer Genome Consortium (ICGC) guidelines from the ICGC Ethics and Policy committee were followed and the study was approved by the Research Ethics Committee of the Hospital Clínic of Barcelona.

  CLL tumour–normal pairs (n = 198) were processed as part of the 100,000 Genomes Project (pilot and main programme v8). Samples were sequenced using the Illumina HiSeq X System with 150 bp paired-end reads at a minimum of 75× coverage for tumours and 30× coverage for germline samples. Reads were mapped to GRCh38 using ISAAC aligner (v.03.16.02.19)66. Single-nucleotide variants (SNVs) and indels were called using Strelka v.2.4.7 using somatic calling mode. Structural and copy number variants were called using Manta (v.0.28.0) and Canvas (v.1.3.1)67, respectively. Samples with a tumour purity estimate from Canvas of less than 50% were excluded from analysis. RNASEH2B copy number was determined using a combination of Canvas, Manta, read depth counts with samtools (v.1.9) and confirmed by manual inspection using IGV (v.2.5.0)68.

  WGS from the ICGC-CLL cohort35 (n = 150) was reanalysed. Raw reads were mapped to the human reference genome (GRCh37) using BWA-MEM (v.0.7.15)61. BAM files were generated, sorted and indexed, and optical or PCR duplicates were flagged using biobambam2 (https://gitlab.com/german.tischler/biobambam2, v.2.0.65). Copy-number alterations were called from WGS data using Battenberg (cgpBattenberg, v.3.2.2)69, ASCAT (ascatNgs, v.4.1.0)70, and Genome-wide Human SNP Array 6.0 (Thermo Fisher Scientific) data35 reanalysed using Nexus 9.0 Biodiscovery software (Biodiscovery). RNASEH2B copy number was established by combining the three analyses and manual review with IGV.

  Irinotecan-treated (n = 39) and irinotecan-untreated (n = 78) colorectal cancers from the 100,000 Genomes Project Colorectal Cancer Domain were 1:2 matched using a multivariate greedy matching algorithm without replacement, implemented in the Matching R-package71. Matching was conducted considering sex, age at sampling, whether a primary tumour or metastasis had been sequenced, microsatellite instability status, and whether the individual had previously received radiotherapy, oxaliplatin, capecitabine or fluorouracil treatment.

  Somatic variant calling was performed in parallel using four distinct methods: Mutect2 (as part of GATK v.4.1.9.0)72,73, Strelka2 (v.2.1.9.10)74, SvABA (v.1.1.3)75 and Platypus (v.0.8.1)76. High-confidence indel calls were defined as the intersected output of these four tools, where variants passed all filters for ≥3 of 4 callers. The intersection was performed using the bcftools (v.1.10.2)77 isec function after normalizing variant calls and left-aligning ambiguous alignment gaps using the bcftools norm function. For Platypus (v.0.8.1)76, joint calling all samples in each cohort was performed before filtering for somatic variants; the other variant callers were run in paired tumour–normal mode. For the RPE-1 mutation-accumulation experiment the end-point and ancestral cultures were defined as ‘tumour’ and ‘normal’ samples, respectively. Variant filtering strategies were optimized to both available information on segregating genetic variation for humans and mice, and the functionality of each calling method as detailed below.

  Unfiltered genotypes for all normal samples were combined to filter germline variants. Somatic calls were obtained using GATK’s FilterMutectCalls command. Human polymorphism data and allele frequencies from gnomAD78 were provided to Mutect2 for the filtering of germline variants.

  Germline indel and structural variants were filtered using the --dbsnp-vcf and --germline-sv-database options. Mouse indels were obtained from Mouse Genomes Project version 5 SNP (ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.indels.dbSNP142.normed.vcf.gz); structural variants from SV release version 5 (ftp://ftp-mouse.sanger.ac.uk/REL-1606-SV/mgpv5.SV_insertions.bed.gz and ftp://ftp-mouse.sanger.ac.uk/REL-1606-SV/mgpv5.SV_deletions.bed.gz). Human indels were extracted from NCBI dbSNP build 151 and common structural variants from dbVAR (https://hgdownload.soe.ucsc.edu/gbdb/hg38/bbi/dbVar/).

  Candidate small indels for each pair were first generated by Manta (v.1.6.0)79 in somatic calling mode. Strelka2 was then executed in somatic calling mode for each pair with Manta’s candidate small indels output provided to the --indelCandidates option.

  Germline variants were filtered on the basis of any normal sample with ≥2 variant allele reads. Somatic variant calls for each sample pair were retained if tumour/end-point sample > 2 variant reads; site depth >9;和正常样本读取深度≥20, <2 variant reads. Moreover, a >对于变体/总深度,肿瘤与正常的比率为10×。

  对于英格兰CLL肿瘤 - 正常对,使用了100,000个基因组项目管道中的strelka2调用,而使用Mutect2,Platypus和Svaba进行了变体,如上所述。英格兰基因组学基因组学的结直肠癌肿瘤 - 正常对进行了处理,但没有Mutect2分析。对于ICGC CLL,使用Mutect2(gatk v.4.0.2.0)72,73,strelka2(v.2.8.2)74,svaba(v.1.1.1.0)75和plaplypus(v.0.8.1)76来称呼体形插入。由Manta(v.1.2)79产生的候选小indels用作Strelka2的输入。Mutect2,strelka2和svaba以成对的肿瘤 - 正常模式运行。somaticmuntydetector.py(https://github.com/andyrimmer/platypus/platypus/master/master/extensions/extensions/cancer)用于识别platypus所调用的体细胞的最低后platypus所调用的体细胞。10×控制VAF,最小深度为10。

  从gene4denovo数据库下载了从头WGS变体(补充表5)。通过丢弃参考等位基因在给定位置或变体位置大于参考染色体长度的参考等位基因参考的变体来消除参考组装转换误差。此外,排除了低于第10(n = 33)或高于第90%(n = 140)百分位数的从头变异的个体。对于种系基因表达,我们基于ENSEMBL版本90注释(ftp://ftp.ensembl.org/pub/release-90/gtf/gtf/homo_sapiens/homo_sapiens.grch38.90.90.gtf.gz)。最初将9个表达组从1(未表达)分为9(高),将它们塌陷成一组较小的未表达(1),低(2、3、4),MID(5、6、7)和高(8、9)。使用升降机将注释转换为GRCH37坐标(Kent Source V.417)。由于重叠基因而导致的多个不同表达组重叠的基因组段被分配给这些表达组的较高。对于每个表达组,我们概括了这些基因基因组跨度中包含的从头indel的数(c)。通过除以该表达组中基因的联合基因组跨度(G核苷酸),并调整所考虑的突变基因组数量(n),将其转换为速率估计值;费率= c/(gn)。为了获得95%的顺式,将基因选择进行了100次的基因选择(采样至相同的数字),并以0.025和0.975分位数为单位的速率计算为95%CI。

  ICGC PCAWG体突变50(https://dcc.icgc.org/api/v1/download?fn=/pcawg/consensus_snv_indel/final_consensus_passensus_passensus_passensus_spass_sensus_snv_mnv_mnv_mnv_indel.icgc.public.maf.gccubliac.maf.gc.maf.gc.mmaf.gcpc)(ArrayExpress,https://www.ebi.ac.uk/arrayexpress/experiments/e-mtab-5200/)。GRCH37参考基因组对基因组的基因组注释与ENSEMBL版本75 notation(http://ftp.ensembl.org/pub/pub/release-75/gtf/gtf/gtf/homo_sapiens/homo_sapiens/homo_sapiens.grch37.75.gtf.gz)在76个ICGC基线基因表达组织/样品中计算了每个基因的平均值,中值和最大基因表达(TPM)。仅考虑在主要常染色体染色体上注释的基因,1至22和X染色体。去除重叠的基因,仅保留最丰富的基因(最高中值,而在纽带的情况下)表达了来自重叠对的基因。从最丰富开始,从层次上应用了此过滤。以下参考。81,具有管家样表达的基因被定义为最大表达的中位表达的基因。根据中位表达,将管家样基因分解为表达组。突变按类型(1 bp缺失,2-5 bp缺失)或下面定义的“ tn*t”基序进行分层,并通过与每个表达组中基因的注释基因组量表进行计数。

  为了分析组织偏置的基因表达,将76个ICGC基线样品通过注释的组织(例如乳房,前列腺,肾脏,肝脏)分组,并在可能的情况下与ICGC癌症类型的原始组织进行匹配。对于每个组织,计算了(1)内部样本的每个基因的中位表达(以TPM为单位),以及(2)的所有其他样品。将第90个基因表达(Q90,最高10%)设置为高水平表达的阈值。在组织中表达高表达的基因(1),但在其他组织中的中位表达小于Q90*0.1(2)被认为是高度表达但受组织限制的(HETR)。对于来自组织的HETR基因的集合,我们计算了HETR基因的注释基因组范围内的2-5 bp缺失的数量。我们类似地计算了所有其他基因的癌症类型中的2-5 bp缺失,并从ICGC队列中所有其他癌症类型的HETR和非HETR 2-5 bp缺失计数。对于每对癌症对,这提供了四组计数,并使用两尾Fisher的精确测试使用R功能Fisher .test进行了分析。正值比值比表明HETR基因中的2-5 bp缺失的富集与其余ICGC队列的背景相比,其中HETR基因未高度表达。对于考虑的每种癌症类型,对每种组织类型都重复此测试(n = 17)。对八种ICGC队列癌类型进行了分析,该类型符合ICGC基线样品中具有良好匹配和已知原产性组织的综合标准,并且要求癌症类型的队列在总体中至少具有n = 2,500 2-5 bp deletions。这代表n = 17×8 = 136个统计测试,通过Bonferroni校正调整。突变耗竭的优势比(R)转化为倒数(1/r),以显示目的。

  与Top1-Seq的两种重复相对应的数据,一种修改后的芯片 - 塞克技术,仅免疫沉淀仅催化催化的TOP1(参考38)(参考文献38),从NCBI Gene表达综合数据库(登录代码GSE57628)中下载(样品GSE57628,样品GSM1385717和GSM11385718)。常染色体染色体1至22,将X染色体分为1 kb bin,对于每个垃圾箱,使用UMAP的区域使用36-MERS82绘制可映射序列的量,以近似Top1-Seq数据的读取长度。对于每个1 kb窗口,对每个重复的可映射区域内的TOP1-SEQ信号进行了汇总,并计算了平均信号。该平均值除以可映射序列的量,以计算每个bp的top1-seq信号,然后使用此值将每个1 kb窗口分配给DICILE BINS。

  来自ID4阳性PCAWG样品的躯体删除调用(如https://dcc.icgc.org/api/v1/download?fn=/PCAWG/mutational_signatures/Signatures_in_Samples/SP_Signatures_in_Samples/PCAWG_SigProfiler_ID_signatures_in_samples.csv) were counted within the same 36-mer mappable regions for each 1 kb window and按类型(1 bp删除,2-5 bp删除)进行分割,或者由下面定义的Tn*t基序进行分层。计算每个类别中缺失的相对率相对于第一个Top1-Seq信号十分位。

  在Python v.3.8.5中,使用SigprofiLereXtractor(v.1.1.0)5在Python v.3.8.5中进行了从头提取和分解,并与SigprofiLermatrixGenerator(V.1.1.1.1.1.14/1.1.1.1.1.15)83和SigprofofiLererPlofiLerPlottting(V.1.1.1.1.1.1.1.1.1.1.1.1.1.1.27)一起进行。应用了推荐的默认设置(包括500个NMF重复)(https://github.com/alexandrovlab/sigprofilerextractor)。从RNase H2 NULL细胞中检测到的RPE-1野生型细胞中突变的减法如下。对于三个野生型线,确定了83个类别中每一类的平均每行的平均数量。使用这些平均值减去AKO和BKO线的每类计数,负值设置为0。然后,对de Novo Signature检测和分解分析的sigprofilerextractor进行了sigprofilerextractor。

  根据重复序列上下文对WGS Indel进行了分类。全基因组的出现较短重复序列和MH的区域被鉴定并过滤,仅包括使用100-MERS82的UMAP区域定义的可映射基因组。对于WGS识别的indel变体和全基因组的出现,在MH/SSTR位点与TNT基序的2 bp删除得分需要删除的碱基,以使序列NT与已删除的Dinucleotides的t立即匹配序列NT。更普遍地,对于不同尺寸的缺失,如果缺失位于含有基序Tn(d - 1)t的MH的SSTR或区域中,其中d是d是删除的长度。全基因组的发生估计是从可映射基因组中给定长度的100,000个随机缺失。对于SSTR和MH区域,鉴定了包含相应基序(TN(R - 1))N或TN(R - 1)t的所有区域(其中R是重复单位的长度和N> 1的长度),并且含有TNT序列的SSTR/MH序列的分数是针对MH可MAPPABLE基因组中的总SSTR/MH序列确定的。

  为了得出与TNT,TNNT和TNNNT基序相匹配的2、3和4 bp删除的NULL期望,请首先根据删除长度,重复类型(STR或MH)和重复长度对gene4Denovo数据库的重复删除进行2、3和4 bp删除。用1,000个重复产生了来自基因组的相应重复序列的自举样品。也就是说,对于每个删除类别,匹配重复类型的重复次数相等,重复单位长度和总重复长度是从每个自举样品的基因组中随机绘制的。

  当删除的二核苷酸含有腺苷(A)时,除了二核苷酸在或TA时,含有2个BP缺失的基因组序列被逆转并补充。对于SNMH和STR缺失,无法明确分配已删除的二核苷酸的位置,因此,已删除的序列在重复/MH区域中正确地对齐,要么是最多的3't,要么在当下或以其他方式到重复/MH区域的极限。将序列转换为位得分矩阵,并使用徽标制造商(V.0.8)84绘制徽标。

  如前所述,从中期生长85中制备的RNH201Δ酵母的Emriboseq数据(补充表5)与SACCER3参考基因组对齐,如前所述,旨在识别基因组嵌入的核糖核苷酸的基因组坐标86。BedTools(v.2.30.0)87实用程序Groupby,Slop和GetFasta用于提取和计算基因组包含的核糖核苷酸的序列上下文,并在R(V.4.0.5)中实现了下游分析和绘制。基因组序列组成调整后的相对速率如前所述计算32,因此,在核糖核苷酸掺入中无序列偏差的无效期望下,所有序列上下文的预期相对速率为1/n,其中n是n是考虑上下文的​​数量。

  使用GraphPad Prism v.9.1.1,Python v.3.8.5或R V.3.3.1进行统计测试。进行了两侧的非参数Mann-Whitney U检验,进行定量测量。多次测试校正,FDR设置为0.05;并且,对于分类数据,Fisher的精确测试是在Python中使用STATS.FISHER_EXACT在Scipy v.1.6.3中进行的。余弦相似性的计算如下进行。每个菌株的突变被转化为载体,有序值代表不同的突变类别是总突变的一部分。然后以成对的方式比较这些。给定两个向量A和B,余弦相似性(COS(θ))被计算为:

  Hierachical聚类使用R(V.4.1.0)的Hclust函数与ID-83突变光谱之间的成对余弦距离(1-余弦相似性)的完全连接聚类,其中41种生产性记者的frameshift突变。对于自举支撑,通过用菌株(每种菌株)观察到的突变,然后计算每个引导程序数据集的余弦距离和分层聚类来生成n = 1,000个引导数据集。报告的引导得分是Bootstrap重复层次聚类的百分比,该群集支持指示位置的右侧集群。

  为了测试余弦相似性的重要性,我们使用了基于Dirichlet-Multinolial分布的无效模型。简而言之,当比较两个突变M1和M2的两个突变计数矢量(在n个突变类别上)时,我们通过比较了10,000对产生的随机矢量对10,000对,如下所示。对于每个模拟对,我们从Dirichlet-Multinomial分布中采样了浓度参数为尺寸N的向量,该对中的第一个向量的试验数为M1,第二个向量的M2。通过计算10,000对突变计数向量的余弦相似性获得了无效分布。

  有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

左文资讯声明:未经许可,不得转载。