2025-06-25 08:14来源:本站
这项研究符合所有相关的道德法规,并得到华盛顿大学机构审查委员会和斯坦福大学机构审查委员会的批准。人类肠组织是从已故的器官捐献者那里采购的。所有捐助者参与者均可获得书面知情同意书。
根据手术方案保留器官,以准备肠道进行移植。简而言之,在循环逮捕前,将一个大口径套管放入了肾上腺主动脉。循环停止后,立即通过通过主动脉套管和将腹腔用冰包装冰冷的HTK保存溶液来迅速冷却腹部内脏。在整个运输和解剖过程中,肠子一直保持冷,直到可以冷冻样品以进行长期存储。通过在SNRNA-SEQ/SCATAC中的液氮中快速冻结从指定的肠部位收集的组织样品,并嵌入并冷冻在最佳切割温度化合物(OCT)中。
成像数据是从四个人类捐助者中收集的,每个捐助者构成数据集。每个数据集都包含两个组织阵列,它们在同一盖玻片上与每个阵列的四个组织一起成像:结肠(sigmoid,降落,横向和上升),以及小肠(Ileum,Mid-Jejunum,Mid-Jejunum,Mid-jejunum,of-jejunum,ofximal jejunum and Duodenum)。将组织单独冷冻在OCT霉菌中,然后切成和组装成具有已知方向性的四个组织的阵列,以便一次将每个组织的横截面截断。阵列在低温恒温器上构造,并以7μm的宽度切片。
我们还在Hubmap的组织登记中注册了这些块在公共坐标框架66中。简而言之,使用可见的人类项目数据集创建了11个器官的男性和女性3D参考物体,包括小肠和结肠。使用用于收集八个肠部位的标准外科解剖学地标,将组织块注册为参考物体。用于小肠小部分的解剖学地标如下:(1)在胰腺头部的右侧下降十二指肠;(2)5厘米以外的局部特雷兹(Treitz)的韧带;(3)在中弓的Treitz韧带之外的200厘米的空肠;(4)5 cm靠近回肠的回肠瓣膜。收集每个部位的肠肠杆五厘米,代表每个部位约20 g的组织。对于结肠,使用了以下地标:(1)回肠阀与肝弯曲之间的中间右结肠;(2)肝和脾弯曲之间的横向结肠;(3)脾弯曲与乙状结肠肠道外观之间的左结肠;(4)乙状结肠在中间通往泰尼亚大肠杆菌停止的直肠结肠中间。
Codex多路复用成像是根据先前描述的Codex染色和成像协议进行的8。选择抗体面板包括鉴定肠上皮和基质细胞亚型的靶标,以及先天和适应性免疫系统的细胞。补充表7提供了详细的面板信息。将每种抗体结合到独特的寡核苷酸条形码,然后用抗体 - 寡核苷酸偶联物染色组织,我们验证了染色模式与预期的模式相匹配,在阳性组织中已建立了Intsosice Intestine或Tonsins ins the intson中的预期模式。同样,使用血久毒素和曙红的形态染色来确认标记染色的位置。首先,在低质量荧光测定中测试了抗体 - 寡核苷酸共轭物,并在此步骤中还评估了信噪比,然后在单个法典多环体中一起测试了它们。
然后用完整的经过验证的法典抗体和成像8对组织阵列进行染色8。简而言之,这需要循环剥离,退火和成像荧光标记的寡核苷酸与偶联物上的寡核苷酸互补。在验证抗体 - 寡核苷酸偶联面板后,运行了测试法典多重测定法,在此期间再次评估了信噪比,并评估了每个共轭物的最佳稀释,暴露时间和适当的成像周期(补充表7)。最后,每个阵列都进行了Codex多路复用成像。每个法典运行中的元数据在补充表8中提供。
然后使用法典上传器处理原始成像数据,以进行图像缝合,漂移补偿,反卷积和周期串联。然后使用Codex细分器或CellVisionSementer,基于流域的单细胞分割算法和基于神经网络R-CNN的单细胞分割算法进行分割。使用Codex分段器(如先前所述8调查的参数)对单个B001的供体样本进行了分割,而所有其他供体样品均使用CellVisionSemtementer进行了分割。CellVisionSementer已被证明与用Codex Data67分割致密和弥漫性细胞组织可以很好地工作。CellVisionSementer是一种基于蒙版区域跨斜线神经网络(R-CNN)体系结构的开源,预处理的核分割和信号定量软件。实际上,它是在我们自己的小组中从Codex多路复用成像数据中手动注释的图像进行设计和培训的。因此,更改的唯一参数是核面膜的生长像素,我们在实验上以3为3的实验起作用。尽管如此,在这种情况下,没有分割算法在分段的完美工作中,在识别的边界可能会捕获邻近细胞的某些部分,并且核分段可能会限制整个序列(尽管可以限制限制的序列)(虽然可以限制均可捕获)(虽然可以限制均可捕获)(但在分段的评论和主要来源中,对此进行了详细讨论67,68,69,70,71,72,73,74。因此,我们对不同数据归一化技术和无监督的聚类方法进行了深入分析,以稳健地识别Codex Intestine数据中的细胞类型。该分析表明,如果使用手动门控,但使用z归一化,可能会影响细胞类型识别的某些分割噪声, 基于涡流或莱顿的无监督聚类,簇簇的数据并手动叠加结果的单元格类型簇为图像导致在更高的Fidelity 75处导致单元类型识别。
codex上传器和分段软件均可从GitHub(https://github.com/nolanlab/codex)下载,并且CellVisionSegenter软件可在Github(https://github.com/bmyury/bmyury/cellvisemerury/cellvisionsementer或htttpps:/htttps:/htttps:// htttps://github.com/cellub.com/celleceegegeg)上获得。上载后,再次评估了图像的特定信号:从随后的分析中排除了任何产生站不住的模式或低信噪比的标记。上传的图像在ImageJ(https://imagej.nih.gov/ij/)中可视化。
B001和B004细胞类型识别是根据先前开发的方法进行的75。简而言之,通过门控DRAQ5(HOECHST双阳性细胞)选择了成核细胞,然后选择用于聚类的蛋白质标记物的Z差异化(某些表型标记未在无处可比的聚类中使用)。从数据中除去了大于35个荧光标记的细胞(Z> 1)。然后将数据与X-Shift(https://github.com/nolanlab/vortex)或基于leiden的聚类一起群集,并使用Scanpy Python软件包(v.1.9.1)。这些处理步骤是根据对肠道75的代码多重成像数据的无监督聚类算法的深入分析和无监督的聚类算法进行的。这些不是新方法,并且已经出现了许多包装来将这些聚类算法集成到诸如Squidpy75之类的库中。根据平均簇蛋白表达和图像中的位置,将簇分配为单元格。映射回原始荧光图像后,不纯净的簇被分割或重新聚集。
如我们先前所述,使用恒星框架将带注释的空间解析的单细胞数据注释的恒星框架将Codex单元类型标签转移到其他供体中。简而言之,Stellar是一种几何深度学习方法,它使用空间和分子细胞信息在不同数据集中传输细胞类型标签。尽管SPAGCN76和SPAGE2VEC77可以利用空间和分子数据来注释细胞,但这些方法是无监督的聚类方法。因此,他们需要手动努力将细胞簇分配给相应的细胞类型,还可能需要额外的手动努力来进行多种迭代群集改进。另一方面,恒星会自动识别现有的单元格类型,并发现细胞类型而无需手动努力,因此我们将Stellar用作首选方法。为了应用出色,我们使用B004捐赠者数据作为Stellar中定义的标记培训数据集。通过基于平均标记表达式的聚类,合并,重簇,簇,亚聚集和分配给细胞类型,对该数据集进行了策划和注释。每个集群的纯度和准确性都通过用相应的荧光图像和H&E染色的Codex图像中的单元格位置来确认。我们使用B004,B005和B006供体数据集来训练恒星并将注释转移到所有其他供体数据集中,这些数据集被视为恒星框架中未经注释的测试数据集。我们没想到会在不同的供体中找到任何新的细胞类型,因此我们使用Stellar来识别跨捐助者的现有细胞类型。如先前建议的75,所有数据集均已z归一化。然后,我们通过查看预测细胞类型的平均标记表达曲线来手动确认所有供体数据集中Stellar的细胞类型分配的质量。我们发现蛋白质标记物分布与专家手工宣传的轮廓相匹配12。
由于三个原因,我们将细胞类型百分比标准化为整体细胞类别。首先,我们捕获了每个肠道的横截面。但是,其中一些肠道(64个中的4个)不是代表性的横截面。其次,使用固定的法典成像窗口,我们试图捕获完整的粘膜区域,因为这包含面板中抗体鉴定的大多数细胞类型,这导致捕获的Muscularis Externa捕获了可变量。第三,通过总体细胞类型进行标准化是有用的,以了解细胞类型的组成如何在这三个隔间中发生变化。
分析了每个成像区域中每个单个单个单独的单个细胞类型的五个最近邻居的平均距离,分析了Codex相同密度。对于相同的单元格类型,该平均距离除以最分散的距离。通过将给定细胞类型的细胞总数除以该区域的总面积,可以计算出最分散的相同细胞距离。因此,接近1的数字是最小密度,而数字接近0的数字与相同细胞类型的细胞更致密。
如前所述进行邻里分析10,27。简而言之,该分析涉及(1)将细胞的窗户带到组织的整个细胞类型图中,每个细胞作为窗户的中心;(2)计算此窗口中每个单元格类型的数量;(3)聚类这些向量;(4)基于群集的平均组成分配总体结构(扩展数据图2a)。简而言之,确定窗口尺寸的临界区域分析是要选择的重要指标。通常,较小的窗口尺寸将标识更多的本地或微观结构,而较大的窗口尺寸将导致识别需要较大窗口大小的类似组成的结构。对于我们的邻居分析,我们选择通过选择给定单元周围的十个最近的邻居来截止窗口大小。该数字在识别代表细胞的直接微环境或其他组织中的当地邻居的保守组成方面效果很好。10,12,27,75,78,79。我们从战略上选择了这种策略性来研究邻里层面的微观结构,因为我们也很好奇这些微观结构如何共同工作,并在多层次范围内共同形成肠道的宏观结构。通常,结构的大小与窗口大小选择直接相关,而是与隔间化的保守单元类型在给定结构内的关系。社区被超过30个集群。将这些簇映射回组织,并评估细胞类型富集以确定整体结构并将其合并为20个独特的结构。
为了确定小肠和结肠上的邻居组成(细胞类型)保护,在所有供体的小肠和结肠样品中分别发现了邻里富集得分。这种富集评分是邻域群集平均值之内的平均细胞类型百分比除以组织中所有细胞的平均细胞类型百分比。从小肠评分中减去每种细胞类型的结肠富集评分,以提供既有最大的绝对差异差异和邻里和细胞类型差异的绝对差异。因此,给定邻域的细胞类型富集差异表明,该细胞类型在该邻域结构的大小肠道中并不保守。
确定社区的确定与如何确定一些微小差异的方式相似。简而言之,邻居组织图中的细胞以较大的窗户大小为100个最近的邻居。这些窗户被整个组织带走,然后用K-均值聚类和超聚物聚集,并用20个总簇聚集。将这些簇映射回组织,并评估邻里组成和富集以确定整体社区类型。同样的方法也适用于300个最近邻居的窗户大小的社区。
每个层次结构级别都通过下一个级别的最大贡献,或者至少占下一个层次结构的15%的贡献。水平中每个特征的百分比用形状的大小表示。形状和颜色组合分别对应于水平和特征。连接线的大小表示功能对下一个功能的贡献的数量。
如前所述27创建了空间上下文图。简而言之,对邻居 - 邻居或社区 - 社区协会的空间上下文分析与我们的方法可以识别多细胞社区的方法有一些相似之处,但也包含一些关键差异。首先,分别用100或300个最近的邻居计算社区或社区的窗户。对于邻域空间上下文图,分析中仅包括在粘膜组织单元中分类的细胞,而社区空间上下文图均包含来自所有组织的所有细胞。一旦计算了窗口(窗口中的每种单元格类型的数量),则选择了代表该窗口中85%以上邻域的组合作为组合。这种组合为窗口中的社区或社区的重要关联提供了信息,这是我们称为空间上下文的功能。然后对组合进行计数,并用正方形邻域组合下方的黑色圆圈的大小进行计数,并且仅绘制了所有组合的频率大于0.1%的组合。然后将每个组合连接到每个组合,其中包含图形的子层中的另一种组合。例如,如果发现分泌上皮社区代表窗户的85%,那么这将是其自己的组合(紫色三角形)。如果发现它是与自适应 - 免疫富含社区的组合,那么它将与此组合(紫色三角形和橙色三角形)相连。同样,如果发现它是与富含等离子细胞的社区的组合,那么它将与此相连(紫色三角形和黄色三角形)。因此,单个组合(通过黑色边缘)连接到空间上下文图中的这些组合(节点)。相似地, 分泌上皮和自适应 - 免疫增强的群落(紫色三角形和橙色三角形)的组合源自这种组合(例如,分泌性上皮,自适应 - 免疫 - 富含卵泡和卵泡(紫色,橙色,橙色和蓝色的三角形))。
我们使用了先前开发的方法来识别显着相关的细胞邻域 - 纽布尔序列27。简而言之,基序识别使用组织的分段区域,其中同一社区的多个细胞是共同存在的,而不是单个细胞(扩展数据图5A)。因此,组织网络图代表社区实例之间的共享边缘。为了为每个治疗组创建一个组织图,我们将每个独特成像区域的组织图的结合。然后,我们通过一系列有效的单元社区或社区分配的有效换位,创建了一个零设置,作为单元社区或社区分配的集合图。将邻里或社区分配并固定顶点的数量创建最大熵空分布。仅考虑了至少五个实例的两个链。为了识别明显的链,通过将p值通过将每个比较组(小肠和CL)中进行的测试数量乘以两倍来纠正B Bonferroni。
使用OmniATAC方案80分离核。在湿冰上进行核的分离。总共将40-60 mg的闪光组织轻轻地进行了trituruturuturuturuturuturuturutur,并在1 ml Hb(裂解)缓冲液中解冻(1.0341×HB稳定溶液,1 M DTT,1 M DTT,500 mM甲状腺素,150 mm的绝经,150 mm的绝经,10%NP40,10%NP40,完整的蛋白酶抑制剂,完整蛋白酶抑制剂,riborock 5 min。然后将组织用杵A挥发10次,并用杵B散发20次,或者直到两种杵都没有抗性为止。然后将样品通过40μM细胞过滤器(Falcon,352340)过滤,并将所得的匀浆转移到预先充满的2 mL lobind管中。将样品在4°C的固定角度离心5分钟以350 rcf离心5分钟,以颗粒。离心后,除去50μl上清液外,所有除去。然后,将350μlHb添加到核沉淀中,总体积为400μl,并使用宽孔管轻轻重悬于细胞核。加入一卷50%碘(60%optiprep(Sigma aldrich; d1556),稀释缓冲液(2 m kcl,1 m mgcl2,0.75 m Tricine-koH pH 7.8),水),并添加所得的溶液。接下来,将600μl的30%碘糖醇仔细分层在25%的混合物下。最后,将600μl的40%碘糖醇分层在30%的混合物下。然后将样品在4°C的摇摆桶离心机中以3,000 rcf离心20分钟,从而产生可见的核带。将上清液吸入到200-300μl的核条带中。然后以200μL收集核条带,并转移到新鲜的1.5 mL管中。将样品用一个体积(200μl)重悬式缓冲液(1×PBS,1%BSA,0.2UμL -1 Ribolock)稀释。使用Countess II FL自动细胞计数器(Thermo Fisher Scientific; AMQAF1000)确定核浓度。
SNATAC-SEQ使用铬的下一个宝石单细胞ATAC库和凝胶珠Kit Kit v1.1(10x Genomics,1000175)和铬的下一个GEM CHIP H(10X GENomics,1000161)或Chromium Single Chip h(1000161)或Chromium单细胞ATAC ATAC和GEL BEAD BEAD KIT(10X GENOMICS)(10x Genomics,10001110),使用SNATAC-SEQ靶向9,000个核。在Illumina Novaseq 6000系统(1.4 pm加载浓度,50×8×16×49 bp读取配置)上对库进行了测序,该系统平均每个核的平均读数为25,000。
SNRNA-SEQ使用铬的下一个GEM单细胞3’试剂盒v3.1(10x基因组,1000121)和铬铬Next Gem chip G g单细胞试剂盒(10x基因组,1000120)进行SNRNA-SEQ靶向9,000个核。在Illumina Novaseq 6000系统上汇总并测序库(读取1 = 28 bp,i7 index = 8 bp,i5索引= 0 bp,读取2 = 91 bp读取配置),平均每个核读数为20,000。
使用Chromium Chromium NEXT GEM单细胞多组ATAC +基因表达(10x基因组学,1000283),对每个样品进行了9,000个核的Snmultiome实验。ATAC(阅读1 = 50 bp,i7索引= 8 bp,i5索引= 24 bp,读取2 = 49 bp读取配置)和RNA(读取1 = 28 bp,i7索引= 10 bp,i5 index = 10 bp,i5 index = 10 bp,读取2 = 90 bp读取配置)在Illumina novaseq 6000 System上分别对图书馆进行了序列。
Initial processing of scATAC-seq data was performed using the Cell Ranger ATAC Pipeline (https://support.10xgenomics.com/single-cell-atac/software/pipelines/latest/what-is-cell-ranger-atac) by first running cellranger-atac mkfastq to demultiplex the bcl files and then running cellranger-atac count to generate scATAC片段文件。SNRNA-SEQ数据的初步处理是使用Cell Ranger Pipeline(https://support.10xgenomics.com/single-cell-cell-gene-gene-eppression/software/software/ppipelines/what-is-cell-ranger)首先运行Cellranger mkfastq to demultiplex to demultiplex the Bcl bcl cillranger cillranger courtran and cillranger courtran and demultiplec。作为核RNA测序,将数据比对与MRNA前参考。使用Cell Ranger Arc Pipeline进行了Mutiome数据的初始处理,包括对齐和生成片段文件和表达矩阵。
法典数据用于计算和比较小肠与结肠中所有细胞类型对之间的CLQ。使用表达式(参考文献81)计算细胞A型和细胞B型之间的共定位商,其中CA→B是细胞类型的最接近的细胞邻居中细胞类型细胞的数量。N是细胞和Na和Nb的总数,Na和Nb是A型和细胞类型B的单元格数量。
Fantom5数据库82和12个文献支持的实验验证的配体和受体对获得了经过验证的配体受体对的最终列表83。非参数Wilcoxon秩和测试用于鉴定小肠与结肠相对于结肠的差异表达的配体和受体(调整后的P值截止= 0.05)。
使用ArchR52中的createArrowfiles函数将SNATAC片段文件加载到R(v.4.1.2)中。计算每个细胞的质量控制指标,并去除少于5的TSS富集的任何细胞。还根据针对每个样品定义的唯一片段切断的唯一片段测序的唯一片段数量过滤细胞。特定于样本的截止值使我们能够说明样品之间的测序深度差异,范围从1,000到10,000,最常见的截止值为每个单元格3,000个片段。在质量控制和滤波后,使用ARCHR函数addDoubletscores计算所有多组细胞和所有非Multiome SNATAC细胞的双重评分,其k = 10,knnmethod =“ umap”和lsimethod = 1。然后,将创建一个ARCHR Project,并用FilterDoubles用FilterDoubles进行过滤,并使用FilterDoubles进行过滤,并具有1.2的过滤器。少数SNATAC样品未分为预期细胞类型的不同簇,并从下游分析中删除。For the non-multiome scATAC cells, an IterativeLSI dimensionality reduction was generated using addIterativeLSI, with iterations = 3, sampleCellsPre = 25000, dimsToUse = 1:25 and varFeatures = 15000. Next, clusters were added with addClusters with resolution = 1.5, nOutlier = 20, seed = 1, sampleCells = 40000 and maxClusters = 40, and the根据已知的免疫,基质或上皮标记基因的细胞表现出高基因活性评分,将所得的簇分为组。
在运行单元格ranger后,用seurat84函数read10x读取了由小组游侠生成的RAW_FEATURE_BC_MATRIX。对数据进行过滤以去除每个核的少于400个唯一基因的核,大于或等于每个核的10,000个基因,大于或等于每个核的20,000个计数,或大于或大于或等于或等于5%的线粒体RNA每个核。为了限制环境RNA的贡献,我们还滤除了至少没有所有液滴计数中位数的数量的核,这应该反映出空滴中的计数中值,因为大部分液滴都是空的。这限制了数据集中包含的液滴中可能来自环境RNA的RNA的分数。使用主组件1-20,为每个非杀菌症snRNA样品运行DoubleTfinder85。将NEXP设置为0.076×NCELLS2/10,000,PN至0.25,并使用ParamSweep_V3确定PK,并在下游分析之前删除了被分类为Doublet的细胞。使用DECONTX86校正了多组和非杀菌细胞的SNRNA数据,以进行可能的环境RNA校正。
将所有样品中的其余细胞合并为一个单一的对象。然后使用Seurat的标准管道84处理数据。首先,使用方法对数正态化和比例尺运行归一化。因素为10,000。使用VST方法和2,000个功能,用Seurat的FindVariableFeatures鉴定了可变功能。然后,在所有基因上运行鳞片,并用RunPCA计算主成分。为了说明聚类中不同供体之间的批处理效应,运行Runharmony87功能,并将数据分组为供体。然后使用RunuMAP从和谐降低来减少UMAP维度,并首先使用降低的Findneighbors聚类,然后使用降低=“ Harmony” =“ Harmony” = 1:20 = 1:20,然后分辨率为1。表达1的findclusters。然后将所得簇中的标记基因表达为1。
在以下组中注释了SNATAC和SNRNA数据:上皮十二指肠,上皮空肠,上皮回肠,上皮结肠,Stromal和Immune。SNATAC数据进一步分为多组和非多重细胞的单独项目,并将RNA注释用于多组细胞,而仅SNATAC细胞分别注释。对于ATAC数据,这些隔室中的每个单元格被亚集成在一个新的ARCR项目中。然后为每个隔间运行Additerativelsi。然后使用LSI尺寸作为输入来运行Addharmony。计算和谐尺寸后,使用AddClusters聚集了单元格,并根据使用增强剂来根据和谐坐标来计算UMAP。通过检查已知标记基因的基因活性评分来注释簇。Marker genes were used for initial annotation of cell types including BEST4+ enterocytes (BEST4, OTOP2), goblet cells (MUC2, TFF1, SYTL2), immature goblet cells (KLK1, RETNLB, CLCA1), stem cells (RGMB, SMOC2, LGR5, ASCL2), tuft cells (SH2D6, TRPM5, BMX, LRMP,HCK),肠内分泌细胞(SCGN,FEV,CHGA,PYY,GCG),骑自行车传输的放大细胞(TICRR,CDC25C)和Paneth细胞(Lyz,Defa5)。
Within the immune compartment, we identified clusters of CD4+ and CD8+ T cells (CD2, CD3E, IL7R, CD4, CD8), B cells (PAX5, MS4A1, CD19), plasma cells (IGLL5, AMPD1), natural killer cells (SH2D1B), macrophages/monocytes (CD14) and mast cells (HDC, GATA2,TPSAB1)(图4C和扩展数据图6D)。来自一个供体的自然杀伤细胞和T细胞在SNRNA数据中与其他T细胞分开聚集(扩展数据图6E),这可能是因为该研究中的供体年轻(24岁)(补充表1)。平滑肌/成肌纤维细胞簇表现出ACTA2,MTH11和TAGLN的高表达。绒毛成纤维细胞表现出高度表达Wnt5b,一些隐rept成纤维细胞表现出高度表达RSPO3。
对于SNRNA细胞,将细胞从上面列出的隔室分为六个seurat对象。来自免疫和基质室的细胞通过类似于上面列出的初始聚类的管道(标准化,鳞片,Runharmony,Findneighbors和Findclusters)的管道运行。对于四个上皮组中的细胞,我们使用不同的方法集成了数据,首先在每个样品的上皮细胞上运行sctransform,并用分析=“ decontxcounts”,方法=“ glmgampoi”,vars.to.regress = c(“百分比”,“百分比”,“百分比”)。然后,我们运行具有特征= 3000的selectIntegrationFeatures,使用基于参考的集成和DIMS 1-30,最后是IntegratedAta。然后,我们在集成数据上运行RUNPCA,然后是Findneighbors和FindClusters,以聚集所得的集成数据。
除了基于上述模拟双重击子基于模拟双重运动的删除外,我们还在下游聚类和注释过程中鉴定出具有来自多个谱系(例如,基质和免疫)标记的簇。例如,一些最初与免疫细胞聚集的细胞表达的基因基因水平高于预期。对于这些情况,我们采用了以下方法:我们首先聚集了最初被归类为免疫细胞的所有细胞,并为每个簇确定了标记基因。接下来,我们将标记基因与先前发表的结肠标记基因28的列表进行了比较,以提名可能不包含单裂细胞的簇。接下来,我们将这些细胞移至基质或上皮区室,其中我们将它们与最初归类为上皮细胞或基质细胞的所有细胞聚集在一起。在这种情况下,如果与基质细胞相比,如果细胞具有很高的免疫标记基因表达,我们认为它们很可能是免疫/基质双重的,并在下游分析之前除去了细胞簇。在对上皮细胞的初始注释后,根据基于Sctransform的集成方法整合了来自所有样品的SNRNA数据中的肠内分泌细胞,通过在所有样品的所有上皮细胞上运行Sctranform,并使用基于参考的基于参考的集成在所有样品中进行Sctranform,并在上述基于参考细胞集成。在整合所有细胞后,我们仅将肠内分泌细胞子集,然后使用RunPCA和使用Findneighbor和Findclusters识别簇计算主要成分。然后根据标记基因的表达对肠内分泌细胞的已知亚型进行注释(图4和扩展数据图6H)。注释MUC6+,MUC5B+和外分泌细胞, 我们将集成的十二指肠数据子集,并使用RUNPCA计算主要组件,并使用Findneighbors和Findclusters识别簇。根据CELA3B和CPB1的表达对外分泌细胞进行注释,并根据MUC5B和MUC6的表达来注释MUC5B+和MUC6+细胞(图4H)。肠道区域之间的细胞型丰度比较使用包装SCCODA29和MILO30进行比较。
使用ARCHR52使用MAC2进行峰值调用。针对上皮细胞,基质细胞和免疫细胞独立定义峰值集。对于上皮细胞,我们想生成一个联合峰集,该峰捕获了上皮室中的细胞类型特异性和特定于位置的峰。为了实现这一目标,我们将细胞分为组,为每个组生成伪库尔克复制,称为pseudobulk上的峰值复制,为每个组为每个组的峰重复生成一个可重复的峰集,然后使用Archr中的Unious Peak设置为Unious Peak设置,将pseduobulk复制的峰重复。用于上皮峰调用的组是来自每种上皮细胞类型的细胞,包括所有肠内分泌亚型,MUC5B+,MUC6+,外分泌和未知细胞组合 - 在肠的四个主要区域中。由于数据集中的簇状细胞数量较少,因此将小肠的簇状细胞合并为一组。为了定义免疫和基质峰集,将细胞除以细胞类型,但不在位置,因为这些隔室中的细胞较少。最后,定义了免疫,基质和上皮细胞类型中所有细胞类型的额外峰集,用于确定链接区域排序评分回归的标记峰。
为了将snRNA配置文件分配给非杀菌素snatac样本,使用Archr adgeneintegrationMatrix与yroduccyDims =“ harmematrix” andemaTrix =“ genescorix =“ genescorix),使用intestine四个主要区域(DuodeNum,jejunum,ileum和colon)的SNRNA和SNATAC数据集分别集成。
接下来,我们根据ARCHR手册确定了TF调节器,用于识别每个区域的TF调节剂,相关性截止值为0.5。在图5b中绘制了符合肠子四个主要区域中任何一个主要区域中调节剂标准的TF。此过程是针对多组数据集和集成的单人数据集分别执行的。在肠的每个区域(例如,L细胞)中,细胞类型很少,无论原点的位置如何,都会将最终的细胞类型分组合并为图5B的X轴上。在免疫和基质区室中分别鉴定了调节剂,并在扩展数据的X轴上指示的最终细胞类型组图10g,h。使用ARCHR函数GetFootprints和PlotFootprints计算TF足迹。
结肠的每个主要部分(DuododeNum,Jejunum,ileum和colon)的吸收分化轨迹是通过运行ArchR功能addtrajectory的轨迹集来推断出的,作为从STEM到TA2到TA1到TA1到TA1到TA1到不成熟的肠球肠细胞的和谐型肠肠细胞和减少肠dim的较低型的和谐的型号。为了识别沿轨迹的变量峰,首先用usematrix =“ peakmatrix”和log2norm = true生成了沿轨迹的所有峰的可访问性矩阵。然后,在四个区域中的任何一个中的任何一个方差> 0.9的峰均通过功能绘制绘图绘制= 0.9的功能绘制= 0.9,returnmatrix = true,scalerows = false = false = 100000。getTraejectory返回的四个矩阵,然后将单个Matrix串联到一个峰值中。区域的绝对差异至少为0.2。使用ARCHR函数.RowzScore计算结果矩阵的行z得分。The resulting row z-scores were k-means clustered using the function kmeans with the number of clusters set to 7 and iter.max = 500. Two clusters of peaks did not show a characteristic pattern and were not included in Fig. 6. Hypergeometric enrichment of motifs in marker peaks was computed with peakAnnoEnrichment and the resulting P values are plotted in Extended Data Fig. 10k.使用GeneexpressionMatrix使用类似方法鉴定沿轨迹的可变基因,用于多组数据或GeneIntegrationMatrix(用于单独的SNATAC和SNRNA数据),而不是运行GetTraigntory和PlotTraigntoryHeatMap时而不是PeakMatrix。对于基因表达, 当运行getTrajectory并过滤基因时,将log2norm设置为true,以仅包括具有绝对差异至少0.5的绝对差异的基因。再次使用函数kmeans将所得矩阵的Z分数聚集,并将设置为7和ITER的簇数量群集。max= 500。在这些基因簇中富集KeGG途径,使用Limma函数kegga88确定了kegg途径,并在分量数据中绘制了所得的undejusted p alugation。使用默认参数的ARCHR函数plottrajectory生成了基因表达与假频率的图,包括使用AddImpteWeights添加的重量级量。具有相关基序活性和RNA表达的TF用ARCHR手册中概述的相关标准鉴定。图6d绘制了TFS平滑表达的排平滑表达表达式。在图6d的热图中包括与四个轨迹中的任何一个中的表达相关的TF。用AddPeak2Genelinks鉴定与基因表达相关的峰。在图6E中,确定了与ETV6表达相关的一组峰,在四个主要肠道区域之一中的相关性至少为0.4。对于TMPRSS15,使用0.55的相关截止值显示图中相关峰最多。然后,沿分化轨迹绘制了每个峰的平滑轨迹峰值可及性。此过程是针对多组数据集和集成的单人数据集分别执行的。
链接二脉级得分回归是一种旨在区分遗传力与种群分层和隐性相关性等混杂因素的方法。为了运行细胞类型特异性的链接 - 二级排序评分回归,我们首先计算了数据集中粗细胞类型的标记峰。为此,我们在所有单元格中添加了单元格类型的注释,然后通过使用GroupBy =“ CellType”运行AddGroupCoverages,然后是AddReproDuciblePeakSet和AddPeakMatrix来定义此对象的峰集。接下来,我们通过将所有肌成纤维细胞簇和周细胞合并为单个组,所有非绒毛成纤维细胞簇簇簇簇,所有非茎吸收性上皮细胞中的所有非villus成纤维细胞簇,将单个组循环到单个组中,所有无肠细胞孔构成单一的细胞,除了单个肠球内分裂细胞,并将单个组循环成单个组,并将单个组循环到单个组中,除了单个肠球内分裂的细胞,所有非茎吸收性上皮细胞,所有非茎的吸收性细胞,所有非茎的吸收性细胞,所有非茎吸收性细胞,所有非茎吸收性细胞,所有非茎的吸收性细胞,所有非茎吸收性细胞融合到单个组中,除了单个肠细胞和lim孔孔素外,所有非茎吸收性细胞融合到单个组中团体。我们确定了带有getmarkerFeatures的生成组的标记峰,并确定了带有截止的getmarker的十个峰=“ fdr <= 0.1 & Log2FC >。(https://github.com/bulik/ldsc/wiki)用于细胞型特定分析89,90,91。疾病,非癌症疾病代码;自我报告:溃疡性结肠炎,非癌症疾病代码;自我报告:吸收不良/腹腔疾病,BMI以及与肠道疾病(包括非癌症疾病代码)相关的特征较少,包括非癌症疾病代码;自我报告:高度报告和诊断量为lds prott cole for lds prott prott prots in ligation。通过纠正用R功能p. phjust校正测试的细胞类型的系数P值确定。
在收集剩余数据之前,使用了由供体B001,B004,B005和B006的样本组成的初始数据集进行配体 - 对象分析和SCRNA-SEQ CODEX集成。该数据集的注释与完整数据集类似,具有以下差异。首先,所有分析均在R v.4.0.2中进行。其次,所使用的质量控制截止值略有不同,其要求具有三倍的RNA计数,就像在初始数据集中未实现的空液滴一样。第三,运行DoubleTfinder时,PK设置为0.09,而不是运行ParamSweep_v3。第四,Sctransform在上皮室的亚集群分析中不使用。取而代之的是,Seurat的标准正常化和比例管道随后是和谐的,以计算综合维度降低,然后使用Seurat的Findneighbors和Findclusters和Findclusters聚集,用于免疫和基质细胞,以及来自肠子四个主要区域的上皮细胞。当配体 - 受体分析涉及对我们后来尝试使用分子制图验证的预测,因此该分析无法通过其余数据集进行重做。
分析了供体B004,B008和B009的小肠(十二指肠)和结肠(Sigmoid/Descing)样品的空间转录组学。从相同的OCT填充的组织阵列中的冷冻切除术(厚度为10 µm)被放置在分子制图测定法提供的生物科学提供的载玻片上。分子制图测定法由分辨率生物科学团队进行优化的方案“人类结肠V1.3”,并针对总共100个感兴趣的成绩单,包括来自我们的配体 - 受体预测的63个基因(补充表3)和37个用于细胞类型的基因(补充表9)。使用具有CellPose(https://github.com/mouseland/cellpose; v.2.0.5)的DAPI信号进行分割,然后是Baysor(https://github.com/kharchenkolab/baessor; v.0.5.1)。每个细胞定量基因计数,并按区域去除细胞(<50 or >8,000像素)和总基因计数(<2). Manual cell type annotation was performed on the basis of the marker gene expression after Leiden clustering (Scanpy). As only 37 genes were used as cell type markers and the sample number (n = 6) is limited, only 20 cell types were identified in this dataset. To validate the ligand–receptor repair (Supplementary Table 3), we first match the cell type with snRNA-seq annotation. only 58 out of 152 predictions have matching cell types. We compared ligand and receptor expression (log transformed) between the colon and small intestine in their predicated cell types (one sided Wilcoxon rank-sum test). P values were corrected for multiple testing using the Benjamin–Hochberg procedure. In total, 15 pairs have consistent higher expression in the colon compared with in the small intestine (both adjusted P < 0.05; Supplementary Table 6). Permutation tests were used to assess whether the success rate (15.5%, 9 out of 58) of our validation is higher than random. Gene labels were swapped and the same DEG procedure was repeated 10,000 times.
snRNA-seq cells and CODEX cells were matched and downstream integrative analysis was performed using MaxFuse, of which the methodology details were described previously41. In brief, MaxFuse is an algorithm that matches cells across different single-cell modalities by linear assignment, using both shared (when available) and unshared features, and implements signal boosting steps (for example, graph smoothing and meta cell construction) to enable matching cells across weakly correlated modalities (for example, RNA to protein). Although various methods are available for integration tasks on modalities with robust sharing information (such as scRNA/scATAC)84,92,93, when such tasks involve integration between protein and sequencing modalities, with much weaker shared features available (<60 versus thousands), a specialized method is needed94. We applied MaxFuse to match snRNA-seq cells to CODEX cells. Cells that were previously annotated as B, T, monocyte, macrophage, plasma, goblet, endothelial, enteroendocrine, smooth muscle and stromal cells were used during this integration process, whereas other cell types were not used owing to limited sharing information across modalities. Subsequently, a shared co-space was calculated to embed both modalities, with visualization of the embedding (first 20 MaxFuse-components) using UMAP. To evaluate single-cell matching performance across RNA to protein modality, we used cell type annotation accuracy (for example, a single CODEX plasma cell matched to a snRNA-seq plasma cell) as a proxy, and both CL and small bowel matching achieved >90%精度。使用单细胞级配对信息,我们将转录组表达式轮廓转移到了每个单独的Codex单元格中,然后对各个Codex蜂窝社区进行了对DEG的分析。在r package seurat中选择函数findallmarker的DEG,只有参数。pos= true,min.pct = 0.3,logfc.threshold = 0.25。在热图上显示了具有调整后的P <0.05并在CL和小肠数据集上共享的基因。使用Panther数据库对具有DEG的单个CN进行了基因本体富集分析。我们已经在此处的论文(https://github.com/shuxiaoc/maxfuse/maxfuse/main/main/main/main/archive/harchive/hubmap_nature)中上传了用于执行SNRNA-SEQ和CODEX数据集的MAXFUSE匹配的代码。这包括数据集准备和代码的分析功能。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。