2025-06-23 02:41来源:本站
在2004年至2019年期间,在乌普萨拉大学医院或Umeå大学医院诊断出患有CRC的患者有资格进行这项研究。病理学家估计的(1)新鲜的活检或手术标本的患者的肿瘤细胞含量≥20%;(2)包括生物库中的全血或新鲜液体结直肠组织的患者匹配的对照DNA来源。从国家质量注册中心,瑞典大肠癌注册中心(SCRCR)中提取临床数据,并从病历中完成。活着的患者的随访至少为3。9年,中位数为8年(数据锁定于2023年6月14日),只有一名患者因随访而失去了994例(94%),完成了5年的完整随访。从2010年开始诊断为诊断的患者(861例; 81%)是从Uppsala-Omeå综合癌症联盟(U-CAN)生物银行收集(Uppsala Biobank and Biobanken Norr)获得的51。在采样或手术的当天,在冰上处理了肿瘤,健康结肠和直肠的未固定组织材料52。将收集在Uppsala中的组织嵌入最佳切割温度(OCT)化合物(Sakura)中,并储存在-70°C下。在Umeå大学医院收集的组织被冻结成碎片,并储存在-70°C。病理学家审查了来自冷冻块的血久毒素和欧洲蛋白染色的切片,以证实肿瘤组织学并估计肿瘤细胞含量。匹配健康的DNA样品是从外周血(522例)或邻近的健康组织(541例患者)得出的。从120个患者匹配的结肠或直肠组织样品中获得对照RNA。总体而言,对1,126例患者的肿瘤进行了切除并测序。然而,由于缺乏来自肿瘤或配对未受影响组织的高质量DNA或RNA测序数据,因此排除了63例患者。
对于来自uppsala的组织样品,分别用于RNA和DNA提取的五个和八个冷冻切片。使用Nucleospin组织试剂盒(740952,Macherey-Nagel)提取DNA,并使用RNeasy Mini Kit(74106,Qiagen)提取RNA。对于来自Umeå的组织样品,使用AllPrep DNA/RNA/miRNA通用试剂盒(80224,Qiagen)提取DNA和RNA。使用Nucleospin 96血核试剂盒(740456,Macherey-Nagel)在基因组小明星机器人(汉密尔顿)上提取对照DNA。对于源自组织的对照样品,使用与肿瘤样品所述相同的程序提取DNA和RNA。使用Qubit系统(Invitrogen)中的Qubit宽范围DSDNA测定试剂盒(Invitrogen)中的DNA浓度测量,并使用Bioanalyzer RNA 6000 Nano Kit(Agilent)评估RNA的浓度和质量,以用于Uppsala和Tape State 2200(Agilent)的样品中的样品(敏捷)。进一步分析了RNA≥7、28S:18S比≥0.8和浓度≥60ng µl -1的RNA样品。我们分析了来自肿瘤的大量RNA和一组较小的未影响的对照CRC组织,以实现大型样品集的分析。这种方法虽然在此类分析中常见,但需要仔细考虑组织异质性对结果的影响,因为CRC和健康结直肠组织之间细胞类型组成的系统差异可能有助于基因表达谱的变化。
WGS库是根据1,063个主要CRC肿瘤构建的,其成对的对照样品根据制造商的MGIEASY FS DNA DNA库准备(1000006987,MGI)的说明。在DNBSEQ平台(MGI)上对库进行了测序,并进行了100 bp配对的测序,以产生所有样品≥60×读取覆盖范围的数据。During WGS data preprocessing, low-quality reads and adaptor sequences were removed by SOAPnuke (v.2.0.7)53 with the parameters ‘-l 5 -q 0.5 -n 0.1 --f AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA -r AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGTTG’.Sentieon Genomics软件(V.Sentieon-Genomics-202010; https://www.sentieon.com/)用于映射和处理下游分析的高质量读取54,其中包括以下优化步骤:(1)BWA-MEM(V.0.7.7.17-r1188)与PAMITAL MOLED-aft and-10000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00000000000000000000000000性面面。将每个肿瘤和对照样品对齐与人类基因组参考HG38(包含所有替代重叠群)55;(2)通过Sentieon实用程序函数的排序模式对对齐读数进行排序;(3)重复的读取由Picard(http://broadinstitute.github.io/picard/)标记;(4)GATK56进行了对齐读数的indel Rehignment和基本质量评分重新校准;(5)和对齐质量控制由Picard完成。
使用多种加速工具(TNHAPLOTYPER,对应于GATK3的突变257; TNHAPLOTYPER2;对应于Gatk4; TNSNV的Mutect257; TNSNV,TNSNV,TNSNV,TNHAPLOTYPER2对应于gatnv,TNHAPLOTYPER2对应于gatect,TNHAPLOTYPER2对应于GATK4; TNSNV,TNHAPLOTYPER2对应于denssconsscope; tnhaplotyper2; tnhaplotyper2; tnsscope;(V.Sentieon-Genomics-202010.01)。通过至少两个工具检测到的体细胞SNV,MNV和INIDEL被重新训练,作为每个配对对照 - 肿瘤样品的集合躯体短变体。tnhaplotyper2重新计算集合体短变体的等位基因深度(V.Sentieon-Genomics-202010.01)。高信心集合体躯体短变量(肿瘤深度≥14,对照≥8的深度,变异等位基因读取肿瘤≥2的计数,变体等位基因读取对照≤2,肿瘤≥0.005的变异等位基因分数≥0.005和对照组的变异等位基因分数≤0.02)进行下流和分析。通过个人癌症基因组报告基因(PCGR)(V.V0.9.1)60,用VEP Cache V.101(对应于Gencode v.35)的VEP Cache V.101(对应于Gencode v.35)的这些变体。
通过黄铜(v.6.3.4; https://github.com/cancerit/brass)在每个配对的对照 - 肿瘤样品中检测到体细胞,并使用参数为'-j 4 -j 4 -c 4 -c 4 -c 4 -s-s humas-as humas grch38 -pr wgs-pr wgs和ascatngs61和ascatngs61(v.4.5;参数'-g l -q 20 -rs'human'-ra grch38 -pr wgs -c 4 -force -nobigwig’。The genome cache file was generated by VAGrENT62 (v.3.7.0; https://github.com/cancerit/VAGrENT) with CCDS2Sequence.20180614.txt (https://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS2Sequence.20180614.txt) andENSEMBL版本-104(http://ftp.ensembl.org/pub/release-104,homo_sapiens.grch38.104.gff3.gz,homo_sapiens.grch38.cdna.cdna.all.all.all.all.fa.gz.gz,homo_sapiens.grch38.ncrna.gzz)从CNV_SV_REF_GRCH38_HLA_DECOY_EBV_BRASS6+.TAR.GZ提取了其他用于黄铜和ASCATNG所需参数的文件(ftp://ftp.sanger.ac.uk/pub/cancer/dockstore/human/grch38_hla_hla_decoy_ebv/cnv_sv_sv_ref_grch38_hla_hla_decoy_ebv_ebv_brass6 +.tar.tar.gz)从以下分析中过滤对照样品中存在的SV。通过facetssuite(v.2.0.8; https://github.com/mskcc/facets-suite)在每个配对的对照 - tumour样品中检测到体细胞CNV。从docker中取出刻面套件的图像:// stevekm/facets-suite:2.0.8,并以奇异性运行(v.3.2.0)63。我们将对齐的序列BAM文件用作输入数据,并在默认设置的两通道模式下执行了刻度64。首先,纯度模型估计了整体分割的拷贝数曲线,样品纯度和倍曲。随后,在纯度模型中从二倍体状态推断出的文凭价值使高敏性模型能够检测更多的焦点事件。使用具有高敏性输出的包装器脚本“ Annotate-Maf-wrapper.r”,对每个高信心集合体躯体短变体的特定于等位基因的复制号进行了注释。用Gencode v.35重新注销了基因级拷贝数结果。根据总拷贝数(TCN),将体拷贝数状态分为八个类 and minor copy number (also known as lower copy number; lcn) estimated by FACETS, including wild type class (one copy per allele; tcn=2, lcn=1), homozygous deletions (tcn=0, lcn=0), LOH (tcn=1, lcn=0), copy-neutral LOH (tcn=2, lcn=0), gain-LOH (tcn=3 or 4,LCN = 0),增益(TCN = 3或4,LCN≥1),AMP-LOH(TCN≥5,LCN = 0)和AMP(TCN≥5,LCN≥1)。
在每个样本中,通过PROPORAA(https://github.com/jluebeck/prepareaa)在每个样本中检测到扩增子,其中参数为'-Ref grch38 -t 4 -cngain 4.9999999-cnsize_min 50000 -downsplame-downsplame 10 -cnvkit/cnvkitgragraper/hhorme-run_aa’65,66。从docker:// jluebeck/prepareaa获得了准备的图像:最新和以奇异性运行(v.3.2.0)。扩增子通过扩增子级(V.0.4.4; https://github.com/jluebeck/ampliconclassifier)进行分类,其中包括参数'-Ref HG38 -Ref HG38 -plotStyle noplot -report_complet_comple_complexity-verxity-verbexity-verbose-verbose-verbose-verbose-verbassification-classification-annontate_cyles_cyles_cycyccyccycccycfii'6777.67。如前所述24,根据样品中存在放大器的基础,对样品进行了分类。
使用CinsignatureQuantification(V.1.0.0; https://github.com/markowetzlab/cinsignaturequantification)对先前提出的17个CIN签名的活动进行了定量。在任何CIN签名中,具有大于零的归一化活性的肿瘤被确定为CIN样品。
CRC肿瘤的MSI状态是通过运行msisensor2(V.0.1,commit e0798c7; https://github.com/niu-lab/msisensor2)tumour-Control配对模块(从msisensor继承)与参数'-c 15 -b 4''。MSISENSOR2自动检测体均聚物和微卫星的变化,并将MSI得分计算为所有有效位点中MSI阳性位点的百分比。MSISENSOR2软件包括两个模块:仅肿瘤和配对。纯肿瘤模块是仅肿瘤测序数据的算法,建议的截止分数为20。相比之下,配对模块源自原始的MSISENSOR1,建议的MSI69的建议阈值得分为3.5。两个模块之间的相关分析在结果之间显示出很强的相关性,因此我们选择了配对模块。此外,基于配对模块的一些研究将MSI样品细分为MSI-LOW(评分在3.5到10之间)和MSI-HIGH(得分高于10)。但是,我们的分析表明,根据配对模块的大多数分数在MSI-low范围内的样本在仅肿瘤模块中的得分高于20,因此我们认为所有样本的MSI得分为≥3.5的样本为具有MSI。
与MSI或POL突变相关的HM肿瘤经常在CRC中发现。为了避免在下游WGS分析期间掩盖突变负担较低的样品的信号,我们首先根据先前所述70的体细胞式变体的总数将肿瘤分为HM或NHM。
在第一轮计算之后,每个HM样品被分为两个具有相等数量的突变计数的独立人造样品。重复此过程,直到未检测到公式未检测到HM样品为止。异常值表示在此过程中,将样品称为HM多少次。由HM肿瘤的突变负担增加引起的突变异质性可以降低检测驱动基因的能力并影响突变特征的鉴定4,27,71。为了识别CRC驱动器基因,我们在整个队列上运行了DNDSCV72(V.0.1.0,提交DCBF8E5; https://github.com/im3sanger/dndscv),分别在HM和NHM上分别在HM和NHM上。从Indel背景模型中排除的已知癌基因列表列出了宇宙癌症基因人口普查(V.95)和Intogen Compendium Cancer Cancer Genes(发行日期2020年2月1日,https://www.intogen.org/)72,72,72,74,74,75,75,75,76,7778,78,78,79,79,80。将每个基因的协变量(列)的矩阵(行)更新为covariates_hg19_hg38_epigenome_pcawg.rda(提交9a59b89; htttps; https://github.com/im3sanger/im3sanger/dndndscv_dataa a)。将参考数据库更新为refcds_human_grch38_gencodev18_recommended.rda(提交9A59B89; https://github.com/im3sanger/dndscv_data)。DNDSCV R软件包包括两种不同的基于DN/DS的算法DNDSLOC和DNDSCV。DNDSLOC类似于传统的DN/DS实施,而DNDSCV还考虑了跨基因之间的可变突变率,并使用表观基因组协变量来推断背景突变率,并添加了负二项式回归模型。Benjamini – Hochberg调整后的P值选择了重要基因的列表(qall_loc<0.1 or qglobal_cv<0.1) and merged from both dNdSloc and dNdScv. Long genes81, olfactory receptor genes and genes with transcript per million (TPM) >在潜在的驱动基因列表中,不到十个肿瘤中有1个被排除在外。使用Maftools82(v.2.12.0)的修改后的体互相函数检测到相互排斥或同时存在的驱动基因,该函数(v.2.12.0)执行了配对的Fisher的精确测试以检测出明显< 0.1) pairs of genes.
To determine significantly recurrent broad and focal somatic CNVs, GISTIC2.083 (v.2.0.23) was run on resulting segmentation profiles from facetsSuite high-sensitivity models with the parameters ‘-ta 0.3 -td 0.3 -qvt 0.25 -rx 0 -brlen 0.7 -conf 0.99 -js 4 -maxseg 25000 -genegistic 1 -broad 1 -twoside 1 -armpeel 1 -savegene 1 -gcm extreme -smallmem 1 -v 30’. A higher-amplitude threshold according to GISTIC was used for focal copy-number-alteration classification, tumour and control log2 ratio >0.9用于扩增和 <−0.3 for deletions83. Recurrently amplified or deleted regions were identified by GISTIC peaks and genes within each peak were summarized for further analyses.
Analyses of mutational signatures were performed by SigProfilerExtraction84 (v.1.1.4) with the parameters ‘--reference_genome GRCh38 --opportunity_genome GRCh38 --minimum_signatures 1 --maximum_signatures 40 --nmf_replicates 500 --cpu 12 --gpu True --cosmic_version 3.2’. SigProfilerExtraction consists of two processes: de novo signature extraction and signature assignment27,85,86. Hierarchical de novo extraction of SBS, DBS and ID signatures from all samples was followed by estimation of the optimal solution (number of signatures) based on the stability and accuracy of all 40 solutions. After signatures were identified, the activities of each signature were estimated by assigning the number of mutations in each extracted mutational signature to each sample. SigProfilerExtraction also decomposed de novo signatures to the COSMIC16 signature database27 (v.3.2). The cosine similarity87 between mutational signatures of this and the GEL cohorts28, and this and the PCAWG cohorts27 (COSMIC v.3.3), were calculated using R (v.4.2.0). A de novo signature was considered novel if the cosine similarity to both GEL and PCAWG signatures was <0.85. The mutational signature associations between decomposed signatures were calculated by Stats::cor (method = “spearman”) and corrplot::cor_mtest (conf.level = 0.95, “spearman”) in R (v.4.2.0), and those with an FDR-adjusted P < 0.05 were considered to be statistically significant88.
Regulatory elements were defined using SCREEN (Registry of cCREs V3; https://screen.encodeproject.org/), a registry of cCREs derived from ENCODE data89. Active cCREs annotated in 13 tissue samples (small intestine, transverse, sigmoid, left colon tissues) and 7 cell lines (CACO-2, HCT116, HT-29, LoVo, RKO, SW480 and HCEC 1CT) derived from colon were collected and downloaded from SCREEN, where cCREs are classified into six active groups (promoter-like signatures (PLS), proximal enhancer-like signatures (pELS), distal enhancer-like signatures (dELS), DNase-H3K4me3, CTCF-only and DNase-only) based on integrated DNase, H3K4me3, H3K27ac and CTCF data. Furthermore, the list of genes possibly linked to a cCRE according to experimental evidence (for example, Hi-C) was extracted from the cCRE Details page of the website. Driver analyses were performed by ActiveDriverWGS71,90 (v.1.1.2, commit 351ca77; https://github.com/reimandlab/ActiveDriverWGSR) with the parameters ‘-mc 4 -rg hg38 -fh 300’ on non-HM samples for each cCREs groups. The missense mutations in the analyses of regulatory regions were removed to avoid confounding signals from known cancer drivers. Mutated elements with a Benjamini–Hochberg FDR < 0.05 were considered to be significant and were used in the following analyses90. To evaluate the functional effects of driver cCREs, we examined their prognostic value and compared the expression levels of their linked genes. Cox proportional hazard analyses were performed to identify prognosis-associated cCREs using the Survival R package (v.3.3-1). Furthermore, potential associations between each cCRE and the expression levels of their linked genes were analysed by comparing raw expression values between groups of mutated and wild-type samples using two-sided Wilcoxon rank-sum tests. An FDR adjustment was applied to the P values from the Wilcoxon test and genes with FDR-adjusted P < 0.05 were considered to be differentially expressed with statistical significance. Finally, cCREs that had an impact on the expression of linked genes were analysed according to survival.
We used multiple tools in the GATK4 (v.4.2.0.0) workflow to extract reads mapped to the mitochondrial genome from WGS, perform the mtDNA variant calling and filter the output VCF file based on specific parameters, according to GATK best practices (https://gatk.broadinstitute.org/hc/en-us/articles/4403870837275-Mitochondrial-short-variant-discovery-SNVs-Indels-). Furthermore, false-positive calls potentially caused by reads of mtDNA into the nuclear genome (NuMTs) were examined. These mutations normally have a low VAF but are highly recurrent in multiple tumours, as well as in matched control samples. To remove these false positives, we used stringent sample filtering, especially on variants with heteroplasmy <10%. We first performed two statistical tests as previously described30: (1) the VAF of a mutation in the matched control sequences needed to be <0.0034; and (2) the ratios of:
needed to be <0.0629, where NMut refers to mutation allele count, RD to average read depth, and Ctrl and Tum are control and matched tumour tissues, respectively. These cut-offs were adapted from a previous study30 and set by the median results of all mutation candidates plus 2 times the interquartile range. As the mutation rate of tumour-specific NuMTs is around 2.3% (ref. 91), we retained mutations with a frequency of <0.023. To avoid false-negative calls, mutations with VAFmax < 0.1 and VAFmedian < 0.05 were examined, and the tumours in which the mutation had VAF >保留0.0592。线粒体基因组的平均测序深度为14,286倍,可以高敏性检测到非常低水平的异质质。因此,使用0.01 <vaf <0.95的变体用于后续分析。对于mtDNA拷贝数计算,我们使用PYSAM(V.0.15.3)过滤和估计每个样品的原始拷贝数。然后,如前所述5。使用Survminer中实现的surv_cutpoint(MaxStat测试:最大选择的等级和统计),确定了mtDNA拷贝数的生存最佳切点(V.0.4.9)。突变特征与mtDNA拷贝数之间的关联是由stats :: cor(方法=“ spearman”)和corrplot :: cor_mtest(conf.level = 0.95,“ spearman”)中的R(v.4.2.0),以及FDR p <0.05的关联),FDR p <0.05的关联被认为是FDR p <0.05的人。
对于每个NHM肿瘤,特定于等位基因的拷贝数高信心集合合奏体躯体短变体和常染色体的高敏化复制副本事件(除了杂志,14p,15p,15p,21p和22p的杂技体染色体臂13p,14p,15p,21p和22p)与使用差异的概率相互时,使用了不同的概率。84d3dd2;如前所述26,使用门GleagueModel推断了队列中的单患者时序和事件时间。指定该队列中确定的驱动基因列表以运行Phylogicndt。
使用Mgieasy RRNA耗竭试剂盒(1000005953,MGI)从总RNA中删除RRNA,并使用MGIEASY RNA库列表示例准备了1,063个原发性CRC肿瘤和120个相邻的对照组织样品,准备了1,063个原发性CRC肿瘤和120个相邻的对照组织样品。使用DNBSEQ平台(MGI)进行2×100 bp配对末端读数的测序,每个样品的目标深度为3000万个配对末端读数。使用Bowtie2(V.2.3.4.1)94和Soapnuke进行了RNA-Seq数据的预处理,包括去除低质量读取和RRNA读数。使用Star(V.2.7.1a)95将清洁测序数据映射到人参考GRCH38。使用RNA-SEQC(V.2.3.6)96对基因和转录本的表达水平进行定量。所有样品中具有表达水平0的转录本被从进一步的分析中排除,mRNA表达矩阵(19,765×1,183)转换为log2(tpm+1)。
Gene fusions were detected by STAR-Fusion97 (v.1.10.0; https://github.com/STAR-Fusion/STAR-Fusion) using clean FASTQ files with the parameters ‘--FusionInspector validate --examine_coding_effect --denovo_reconstruct --CPU 8 --STAR_SortedByCoordinate’ and Arriba98 (v.2.1.0;https://github.com/suhrig/arriba)从由star95对齐的BAM文件(v.2.7.8a; https://github.com/alexdobin/star)。从docker中取出恒星融合的图像:// trinityctat/starfusion:1.10.0并以奇异性运行(v.3.2.0)。Genome lib used in STAR-Fusion was downloaded from CTAT genome lib (https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_StarFv1.10/GRCh38_gencode_v37_CTAT_lib_Mar012021.plug-n-play.tar.gz).如用户手册(https://arriba.readthedocs.io/en/latest/)中所述生成的ARRIBA的对齐BAM文件。然后通过Fusionantotator(V.0.2.0; https://github.com/fusionannotator/fusionannotator)对ARRIBA的基因融合进行注释,并与Star-Fusion的结果合并。然后通过Annofuse99(V.0.91.0; https://github.com/d3b-center/annofuse)对合并结果进行过滤并优先使用推定的致癌融合。
我们使用seurat(v.4.1.0)来识别所有CRC样品的稳定簇和MSI肿瘤100。通过Celligner101校正样品之间的潜在批处理效应或源差异(v.1.0.1; https://github.com/broadinstitute/celligner_ms),将所得的矩阵作为比例数据导入Seurat。通过在Findneighbors(10至30,步骤= 5)中重复不同K.Param的聚类来评估三个不同的参数,原理成分的数量(10至100,步骤= 5)和Findclusters中的分辨率(0.5至1.4,步骤= 0.1)。通过JACCARD相似性指数评估集群的稳定性,并通过SCCLUSTeval102(V.0.0.0.9000)确定首选聚类结果(分辨率= 0.9,PC = 20,K = 20)。
对于CMS分类,三种CMS分类器算法(CMSClassifier(V.1.0.0)具有随机孔预测41,CMSClassifier-Single样本预测41和CMSCALLER103(V.0.9.2)),并使用了CMSClassClassifier-Random random Random Random Random Random Random Random Random Random Random random random random random random random random random random random random random random random random random random random。使用这三个R软件包分别或组合处理表达数据,从而产生四组结果。在合并模式下,当两种算法做出相同的预测时,确定每个肿瘤的CMS亚型,否则将其分配为Na。在所有四组结果中,CMSClassifier-random Forest预测最多的控制样本为NA,并将更多的MSI样品分配给CMS1,表明较低的假阳性速率和较高的精度。如先前所述,基于715个固有上皮癌特征的标记基因进行了内在的CMS(ICM)分类7。从ICMS2_UP和ICMS3_Down列表中获得ICMS2标记基因,ICMS3_UP和ICMS2_DOWN列表用作ICMS3标记。随后,使用CMSCALLER R软件包的“ NTP”函数计算了每个肿瘤的ICMS2和ICMS3分数。如果基于置换的FDR≥0.05,则将肿瘤定义为不确定的。
为了验证从头分类的CRPS,我们基于深度残留学习框架建立了一个分类模型,涉及以下步骤:(1)基因表达数据首先通过单样本基因集合富集分析(SSGSEA104)在基因集中分析中实现的单样本基因集合分析(SSGSEA104)转换为途径概况(GSVA105(v.1.42.02.0.42.0),参数,',','','','','',',',',',',参数,'MSIGDB106,107,108(V.7.4)。我们最终获得了1,183个样品的30,049条途径,包括1,063个肿瘤和120个相邻的未受影响的对照样品。(2)使用Scikit-Rebate109(v.0.62)中实现的救济来完善获得的途径功能。浮雕算法使用最近的邻居实例来计算特征权重,并为每个功能对CRPS分类的贡献分配得分。然后按分数对这些功能进行排名,并选择了前2,000个用于模型训练。(3)我们使用Tensorflow110(v.2.3.1)使用50层残留网络体系结构(RESNET50-1D)构建监督的机器学习模型,其中4个堆叠的块由48个卷积层,1个最大池和1个平均池层组成。如先前所述的111,将过滤器和步幅设置为,并将内核大小设置为高度。激活函数设置为SELU,除了最后一层,它使用SoftMax进行完整连接。在模型汇编过程中,我们将NADAM算法用作模型训练速度的优化器,并选择了分类CrossTropy作为分类任务中功能的丧失。为了充分训练模型,将时期设置为500,并且使用Tensorflow中的LearningRatesCheduler来控制每个时期开始的学习率。最后,使用Tensorflow中的ModelCheckPoint用最大F1分数来保存模型。(4)将所有1,183个样本分为训练集(80%),测试集(10%)和验证集(10%)。在模型训练之前,1D向量, 代表每个基因集的样品行(GS1,GS2,…,GSN)的行被转换为具有NP.Reshape函数的2D矩阵(1,nFeatures),并用作张量的输入数据(输入形状结构设置为(无,无,-1,2000))。RESNET50学习了输入数据的表示形式,并适合培训集。Tensorflow中的输出类数量设置为6,对应于5个CRP和正常样品集群。为了避免在学习过程中阶级失衡引起的偏见,应用了不平衡的learn112(v.0.9.0)中的随机过采样示例算法,以确保可以随机选择每个CRPS类中的至少一个样本进行模型培训。类概率小于0.5的样本归类为NA。此外,Shapley添加说明(SHAP)113用于解释CRPS分类的模型预测,因此可以解释其分子特征。为了测试CRPS分类模型,来自NCBI GEO114(GSE2109,GSE13067,GSE13294,GSE14333,GSE14333,GSE20916,GSE20916,GSE33113,GSE33113,GSE33113,GSE35896和GSE35896和GSE39582),总共有十个外部CRC数据集(n = 2,832)(n = 2,832)TCGA-READ4)和AC-ICAM31均匀处理,并转换为使用SSGSEA的途径。通过我们的CRPS分类模型对这些CRC样品进行了类别预测之后,进行了生存和途径分析。在这些外部数据集中,只有GSE39582,TCGA和AC-ICAM队列具有足够的样本量和临床数据的完整性,以允许生存分析。因此,使用这三个数据集分别和组合进行了CMS,ICM和CRP之间预后预测的比较。使用CMScaller103对我们数据集和TCGA的CRP进行途径分析。CRPS分类模型可在GitHub(https://github.com/skymayblue/u-can_crps_model)上获得。
GSEA106(v.4.2.3桌面)和MSIGDB107,108(v.7.4)在途径分析中使用,并具有以下设置:filter“ Geneset Min = 15 max = 200”。如前所述,我们还使用后代116(V.1.16.0)研究CRP中的14个致癌途径。使用PathwayMapper(v.2.3.0; http://pathwaymapper.org/)1111111111111111111111111同子117,使用CRC体细胞改变的途径进行集成表示。使用NEWT工具(v.3.0.5; https://newteditor.org/)1111合并了途径模板,包括跨流道相互作用118,它允许在途径模板上视觉覆盖实验数据。
如前所述44,使用Buffa缺氧Signature45计算1,063个CRC肿瘤和120个未受影响的对照样品的低氧评分。简而言之,在特征性的每个基因的中值肿瘤值高于中位数的肿瘤值+1评分为+1,否则给他们的BUFFA缺氧评分为-1 -1。签名中每个基因的分数之和是样本的缺氧评分。我们使用线性模型分析了使用R Stats套件(v.4.1.0),在所有肿瘤,NHM肿瘤和HM肿瘤中缺氧评分与突变特征之间的关联。对于在队列中测试的每个突变特征,创建了一个完整的模型和无效模型,并针对肿瘤纯度,诊断年龄和性别进行调整。120。这两个模型的方程是根据先前的研究44改编的:
使用方差分析进行了两个模型之间的比较,当FDR-或Bonferroni调整后的P值<0.1时,缺氧在统计学上与突变特征显着相关。进行<20个测试时,仅将Bonferroni调整应用于P值。使用dharma package121(v.0.4.5)中的Simulateresiduals函数计算所有完整模型的缩放残差,并使用Kolmogorov – Smirnov测试对其均匀分布进行了验证。经过测试的突变特征包括突变特征,SNV,CNV和SV密度,驱动突变和亚克隆性。在突变签名分析中,在整个模型中使用了每个肿瘤中每个特征的比例。为了测试缺氧与特定遗传改变之间的关联,我们考虑了22个突变密度的指标,其中包括包括所有区域,编码区,非编码区,非义义,非同义词,SNV,DNV,DNV,TNV,TNV,DNV,DEL,INS和INDEL的10个SNV突变计数;8个CNV突变密度的指标,这些密度是从PCAWG44改编的,包括基因组的比例,包括总拷贝数畸变(PGA,Total),PGA增益,PGA损失,PGA增益:损失,平均CNV长度,平均CNV长度,平均CNV长度增长,平均CNV长度损失和平均CNV长度增长:损失:损失;和4种SV类型,包括删除,倒置,串联综合和易位。使用R软件包DPLYR122计算了所有22个指标的十分位指标的突变密度。最后,在亚克隆性分析中,如上所述,源自系统的克隆和亚克隆突变以及每个肿瘤的亚克隆数量。
CIBERSORT48(V.1.04)和XCELL47(V.1.1.0)计算方法在TPM基因表达数据上的默认设置应用于微环境估计。
OS被定义为从诊断原发性肿瘤到死亡的时间,或者如果在最后随访中进行审查,则将RFS定义为从手术到最早或远处复发的时间或死亡日期或死亡的时间,或者如果在最后一次随访中没有复发或死亡,而重复后的生存是从复发到死亡的时间。OS分析包括所有I -IV期患者,而RFS分析中排除了IV期诊断时IV期的患者。对于某些变量,还为I – III进行了单独的OS分析。Cox的比例危害模型旨在使用R包装Final Fit和生存(v.1.0.4/v3.3-1)确定临床和基因组特征对预后的影响。对所有已识别的编码或非编码驱动因素和临床变量进行了单变量的COX回归,而多变量的COX回归应用于在单变量分析中具有统计学意义的驱动因素(P <0.05)(P <0.05),该驱动因素与包括肿瘤现场,预处理状态,肿瘤阶段,年龄较大的肿瘤状态,肿瘤状态和超级状态的共同变量,包括肿瘤相变。使用Kaplan – Meier方法构建了OS和RFS曲线,并使用R套件Survminer(v.0.4.9)评估了组之间的差异。在补充表18、19、21、23和30中,显示了与OS或RFS的关联,显示了P <0.05的分析以粗体标记。在这些分析中未完成多次测试的补偿。
Patient inclusion, sampling and analyses were performed under the ethical permits 2004-M281, 2010-198, 2007-116, 2012-224, 2015-419, 2018-490 (Uppsala EPN), 2016-219 (Umeå EPN) and the Swedish Ethical Review Authority 2019-566.所有参与者在入学时均提供了书面知情同意书。所有样品都存储在Uppsala(Uppsala Biobank)和Umeå(Biobanken Norr)的各自的中央生物银行服务设施中,并在经过批准的申请后在此处用于分析。在BGI研究中进行了假名样本的测序和序列数据分析,BGI研究可以访问患者年龄范围,性别和肿瘤级别的数据。样本和数据根据瑞典MTA生物银行和适用的GDPR标准条款从UU转移到BGI研究,以转移到第三国。对患者级数据的分析是在UU上进行的。该研究符合涉及赫尔辛基宣言的人类参与者的医学研究的道德原则。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。