2025-06-23 19:29来源:本站
本文中的所有结果和数字都是可重现的,从脚本和代码可以从https://github.com/pachterlab/byvstzp_2020开始。存储库使方法选择完全透明,包括所使用的所有参数和阈值。使用Bonferroni校正校正所有P值,所有误差线表示±1×S.D.从均值。
所有程序均根据艾伦脑科学研究所的机构动物护理和使用委员会协议进行。为小鼠提供食物和水,并在日常的12-H日期中维持:夜间周期,每个笼子不超过五只成年动物。在这项研究中,我们使用SNAP25-IRES2-CRE小鼠52(MGI:J:220523)富含神经元,越过AI1453(MGI:J:220523),这些(MGI:J:220523)维持在C57BL/6J背景上(RRID:IMSR_JAX:IMSR_JAX:IMSR_JAX:000664)。小鼠在产后53-59天安乐死。从男性和女性中收集组织,用于SCRNA SMART和SCRNA 10X V3分析。
我们通过调整先前描述的程序14,31来隔离单细胞。将大脑解剖,浸没在人造脑脊液(ACSF)31中,嵌入2%琼脂糖中,并将其切成250-μm(智能seq)或350-μm(10x基因组学)冠状动脉切片(精确仪器)。Allen Mouse Brain公共坐标框架版本3(CCFV3,RRID:SCR_002978)54本体学用于定义解剖的MOP。
对于Smart-Seq,将MOP从切片中进行了微切除,并用1 mg Ml-1 prinase(Sigma P6911-1G)分解为单个细胞,并如前所述处理31。对于10倍基因组学分析,将组织块用30 u ml -1 papain(沃辛顿Pap2)在30°C下30分钟消化。通过将木瓜蛋白酶溶液与猝灭缓冲液(ACSF为1%FBS和0.2%BSA)交换三次,从而淬灭酶消化。将淬火缓冲液中的组织块通过火抛光的移液器进行了三杆,直径约为20次,直径为600 µm。允许溶液沉降,并将含有单个细胞的上清液转移到新管中。将新鲜的淬火缓冲液添加到沉降的组织块中,并使用300 µm和150 µm的火抛光移液器重复进行Trituration和上清液转移。单细胞悬浮液通过70 µm的滤光片进入15 ml圆锥管中,底部有500 µL高-BSA缓冲液(ACSF为1%FBS和1%BSA),在摇摆的桶中心隔开中,在100g的100 g中以100g的速度在100克中心离心10分钟。将上清液丢弃,并将细胞颗粒重悬于淬火缓冲液中。
使用130μm喷嘴通过荧光激活的细胞分选(BD ARIA II,RRID:SCR_018091)收集所有细胞。通过将悬浮液通过70 µm滤波器传递并添加DAPI(最终浓度为2 ng ML-1)来制备细胞进行分类。排序策略如前所述31,大多数细胞使用TDTomato阳性标签收集。对于Smart-Seq,将单个细胞分类为8孔PCR条的单个孔,这些井中包含来自Smart-Seq V4超低输入RNA试剂盒的裂解缓冲液,用于测序(Takara 634894),用RNase抑制剂(0.17UμL-1),立即在干冰上冻结,在干燥的冰上冷冻,在干燥的冰上冷冻。对于10倍基因组学,将30,000个细胞在10分钟内分类为包含500 µL淬火缓冲液的管。每个等分试样的30,000个排序细胞的等分试样在200 µL的高-BSA缓冲液顶部轻轻地分层,并在摇摆的桶离心机中立即以230克离心10分钟。除去上清液,并将35 µL缓冲液留在后面,其中重悬于细胞颗粒。定量细胞浓度,并立即加载到10倍基因组铬控制器上。
对于Smart-Seq库的准备,如前所述,我们执行了具有正面和阴性对照的过程。31。用于测序的Smart-Seq V4(SSV4)超低输入RNA套件(Takara 634894)用于逆转转录poly(a)RNA并扩增全长cDNA。用8孔条中的18个周期放大样品,一次以12-24条条的形式放大。所有样品均通过Nextera XT DNA库制剂(Illumina Cat#fc-131-1096)进行了使用Nextera XT索引KIT V2(Illumina FC-131-2001)和一个自定义指数集(Integrated DNA Technologies)。Nextera XT DNA库制剂是根据制造商的说明进行的,并进行了修改,以将所有试剂的体积减少到原始协议的0.4×或0.5倍。
对于10倍V3库制备,我们使用了铬单细胞3'试剂盒V3(10x Genomics 1000075)。我们遵循制造商的说明,以进行细胞捕获,条形码,逆转录,cDNA扩增和图书馆构造。我们针对每个单元格的测序深度为120,000个读取。
如上所述进行了Smart-Seq V4库的测序。简而言之,在Illumina Hiseq2500平台上对库进行了测序(配对端,读取长度为50 bp)。在Illumina Novaseq 6000(RRID:SCR_016387)上对10x V3库进行了测序。
使用Kallisto和“ Kallisto Pseudo” Command24处理了6,295个智能seq单元。使用Kallisto和Bustools55预处理94,162 10X基因组学V3细胞。通过使用-GeneCounts标志制作基因计数矩阵,并通过省略TCC矩阵。The mouse transcriptome reference used was GRCm38.p3 (mm10) RefSeq annotation gff file retrieved from NCBI on 18 January 2016 (https://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/), for consistency with the reference used by the BICCN consortium22.
The GTF and the GRCm38 genome fasta file (https://github.com/pachterlab/BYVSTZP_2020/releases/tag/biorxiv_v1), provided by the BICCN consortium, were used to create a transcriptome fasta file, transcripts-to-genes map, and kallisto index using kb ref -i index.idx, -gt2g.txt -f1转录组.fa Genome.fa genes.gtf。为了验证Smart-Seq同工型量化,我们首先检查了基因注释的量化的鲁棒性,并在分析中使用的BICCN衍生定量之间的同工型水平的平均相关性在0.965的平均相关性22222和小鼠Gencode M25衍生的定量(补充图3)。The GENCODE M25 mouse transcriptome reference (https://github.com/pachterlab/BYVSTZP_2020/blob/master/reference/gencode/fasta_link.txt) and the kallisto index were built using kallisto index -i index.idx gencode.vM25.transcripts.fa.gz.
使用Kallisto Pseudo命令为SMART-SEQ2数据生成了同工型和基因计数矩阵。群集分配与BICCN联盟产生的群集标签与细胞相关联22。标签以三个级别的层次结构组织:类,子类和集群。可以从https://github.com/pachterlab/byvstzp_2020下载细胞的群集标签。
我们的分析使用了BICCN22产生的智能seq细胞标签。简而言之,将单元格类型分配到智能seq单元格是基于在scrattch.hicat package31中合并算法的群集的扩展。聚类方法生成了三个单元格的层次结构:类,类似于子类别的类中的单元组以及称为簇的子类中的单元组子集。
为了构建一个结合所有数据集的样本的常见邻接矩阵,首先选择了数据集(参考数据集)的子集。来自Allen(SCRNA 10x V2 A)和10x V3单核数据集的10x V2单细胞数据集(SNRNA 10x V3 B)被用作参考。
The key steps of the pipeline are as follows: (1) perform single-dataset clustering, (2) select anchor cells for each reference dataset, (3) select highly variable genes (HVG), (4) compute k-nearest neighbors, (5) compute the Jaccard similarity, (6) perform Louvain clustering, (7) merge clusters, (8) cluster iteratively, and (9) compile and merge集群。进一步的详细信息是在参考文献中。22。
首先将同工型计数除以转录的长度,以获得与分子拷贝数成正比的丰度估计。由于读取可以来自转录组中的任何地方,因此可能会富集同工型。因此,按长度归一化的同工型丰度对于准确估计mRNA拷贝数至关重要。这已经在许多研究中对同工型丰度的准确估计为56,57。
逐渐归一化后,我们删除了少于一个计数且少于一个单元的同工型。我们还去除了分散体小于0.001的基因及其相应的同工型。
为了生成细胞基因矩阵,我们概括了与同一基因相对应的同工型。去除了少于250个基因计数且线粒体含量大于10%的细胞。通过将每个单元格中的计数除以该单元的计数之和,然后将细胞的计数划分为TPM,然后乘以1,000,000。然后将计数矩阵用log1p转换,并将列缩放为单位方差,均值为零。所得的基因和同工型基质包含6,160个细胞和19,190个基因,对应于69,172个同工型。
通过首先计算每个特征的分散体,然后将所有特征分成20个垃圾箱,从而确定高度可变的同工型和基因。通过减去平均分散体并除以每个垃圾箱内的分散体的方差,将每个特征的分散体标准化。然后根据归一化的色散保留了前5,000个功能。这是使用scanpy.pp.highly_variable_genes进行n_top_genes = 5000,float = seurat和n_bins = 20计算的。
为了生成单元格矩阵,我们使用了“ Bustools Count - GeneCounts”。使用“ Bustools Count”生成单元格矩阵,并限制在仅包含一个同工型的等效类中,从而产生一个单元格矩阵。使用KB Python将两个矩阵加载到Python中。去除了小于250个基因计数且线粒体含量大于21.5%的细胞。通过将每个单元中的计数除以该单元的计数的总和,然后将细胞的计数划分为该单元的计数,从而将细胞标准化为每百万(CPM),然后乘以1,000,000。然后用log1p转换计数矩阵,并缩放为单位方差,均值为零。所得的基因基质包含94,162个细胞和24,575个基因。我们去除了BICCN财团鉴定为低质量的细胞。我们确定了分析在不同日期的细胞之间的批处理效应,因此我们将分析限制为仅在同一日期测定的细胞,并选择了数量最多的细胞日期(补充图2)。此外,我们对4个10xV3批次中的每一个进行了基因计数的成对比较,并发现所有对的Pearson相关性都非常高,平均为0.9979,表明在同一日期分析的批次之间的批处理效应有限。
通过首先计算每个特征的分散体,然后将所有特征分成20个垃圾箱,从而确定高度可变的同工型和基因。通过减去平均分散体并除以每个垃圾箱内的分散体的方差,将每个特征的分散体标准化。然后根据归一化的色散保留了前5,000个功能。这是使用58 scanpy.pp.highly_variable_genes进行计算的,n_top_genes = 5000,flain = seurat和n_bins = 20。
用联合分析与其他许多数据类型生成的预定群集群标签可视化Smart-Seq数据,我们使用子集群标签在完整缩放日志(TPM+1)矩阵上执行了NCA59,以达到十个组件。然后对10个NCA组件进行T-SNE26。NCA不仅将其相关丰度的细胞集合作为输入,还将其用于这些单元格的群集标签,并试图找到一个投影,以最大程度地减少一个剩余的k-neartiment oferry59。此外,T-SNE应用于PCA(补充图1B),炒了谷氨酸能和GABA能细胞类型的接近,而NCA的T-SNE似乎尊重细胞的全局结构。尽管在保存全局结构方面,将UMAP应用于数据的PCA(补充图1C)似乎比T-SNE好,但它仍然没有分离出细胞类型和NCA(补充图1D)。使用Sklearn.Manifold计算T-SNE。用默认参数和随机状态42生成T-SNE。在10个NCA组件上进行了类似均匀的歧管近似,并且50个截断的单数值分解(SVD)衍生的组件。UMAP27使用带有默认参数的UMAP软件包计算。
为了确保NCA不适合其相应的子类过度拟合细胞,我们将所有子类标签随机排列,并将NCA-T-SNE维度还原方法重新兰。我们观察到排列的亚类标签的均匀混合,表明NCA并没有使细胞过度拟合其相应的亚类。
未进行明确计算以确定样本量。我们分析了用Smart-Seq分析的6,160个小鼠MOP细胞,用Merfish分析的280,327个细胞和94,162个细胞用10倍基因组铬V3分析。我们分析了雄性和雌性小鼠,以了解基因和同工型表达的差异。将差异表达的样本量设置为使得簇中的90%的细胞在测试基因中具有非零的表达。最小的簇大小包含七个细胞,所有细胞均具有测试基因的非零表达。我们为所有测试计算了误差线,以确保样本量足够。
在找到一个有意义的投影后,似乎尊重单元格的全局结构,我们搜索了数据集中可能的批处理效应来源。我们通过测定日期发现了10xV3数据中批处理效应的证据(补充图2a)。为了确保我们的发现不会被这种批处理效应混淆,我们仅从一个测定日期选择了一组单元格,并选择了以最大数量的单元格和所有簇中存在的单元格的组合。然后,我们研究了Merfish的数据,并根据跨群集的批次标签的分布发现了批处理效应的最小证据,在这些群集中,每个群集中观察到的细胞的分数几乎完全是假设均匀混合的每个批次的预期细胞的预期分数(补充图2B)。
在进一步检查我们定居的单个10xv3批次时,我们注意到在一个情况下是L5 IT子类的相关性较低。在Smart-Seq和Merfish基因表达数据(扩展数据)和10xV3和Merfish数据之间的比较中,还观察到了低相关性。我们假设这种较低的相关性源于L5 IT中的亚类特异性效应,与其他亚类相比,这些细胞的总体表达差异很大。IT子类的L5在智能seq数据中包含七个簇,10xv3数据中的四个簇,以及Merfish数据中的四个集群。
为了确定L5 IT在Smart-Seq,10X和Merfish数据之间的低相关性来源,我们检查了每个子类中男性和雌性细胞之间的差异基因。我们发现10倍和智能seq数据的L5中的细胞表现出性别特异性分离(补充图4A,b)。在所有子类中雄性和雌性细胞之间进行差异表达后,我们发现L5具有最高量的唯一差异基因(补充图4C),并且Smart-Seq和10x数据具有37个常见基因,这些基因差异表达(补充图4D)。但是,其他子类并未表现出基于性别的分离。不能够排除该技术中L5 IT细胞的低相关性是由于数据集中的批处理和性别之间的混淆所致,我们决定将子类排除在分析中。
我们解析了成绩单到生物图,将具有相同最终位点的转录本分组为同一基因中的相同位点。然后,我们计算了基因内这些最终位点集的数量,并将它们绘制在该基因内的同工型数量。
10xv3-Smart-seq,10xv3-merfish和Smart-Seq-Merfish之间的相关性是在基因水平上以及所有三对技术的子类别,在同类技术水平上,在群集分组的单元格之间,仅在10xV3和Smart-Seq中分组。对于每对,我们从两个原始矩阵开始,并仅限于两者共有的基因或同工型。然后,我们将每个单元格的每个矩阵的计数标准化为100万,log1p转换整个矩阵,并将特征缩放到零均值和单位方差。在每个群集中,我们将这些特征限制在至少50%的单元中存在的特征。然后,我们在两个矩阵中的相应簇中找到了平均细胞,并计算了它们之间的Pearson相关性。这些方法是针对扩展数据图2的。3,4,10。就不同技术的准确性而言,我们发现了Smart-Seq,10XV3和Merfish的定量之间的良好一致性(扩展数据图10)。
在赢家竞赛中,不同SCRNA-SEQ技术的比较倾向于将重点放在吞吐量,成本和基因级准确度上。我们的结果对此事有所了解。以前已经证明,对于准确的基因级估计值是必需的同工型丰度的定量,我们发现它在实践中至关重要(补充图7,补充表11a,b,12a,b)。这突出了适当的智能seq数据适当同工型量化的重要性,即使是以基因为中心的分析56,60,61,61,62,63,与10倍基因组学和Merfish数据一起使用。
对于每个聚类,类,子类和群集的每个级别,我们在群集及其在log1p计数上的群集之间对每个基因或同工型进行了t检验。为了鉴定在基因级分析中掩盖的同工型富集,我们寻找通过检查含有同工型的基因与该簇相对于该群集的补充而无法显着表达的同工型。在该簇中不到90%的细胞中表达的同工型被忽略。所有t检验均使用0.01的显着性水平,并使用Bonferroni校正校正所有P值进行多次测试。
首先,我们确定了标记Merfish数据中特定子类的基因。PVALB基因是PVALB亚类的标记。然后,我们对子类的同工型级别的智能seq数据进行了差异分析,以识别标记每个智能seq子类的同工型。PVALB的两个同工型中只有一种标记了PVALB簇。这使我们能够推断出在Merfish数据中检测到的特定PVALB同工型的事实。
此外,我们通过差分分析确定了所有标记Merfish数据中特定亚类的基因,并检查了它们的基础同工型是否也差异表达。然后,我们注意到哪些同工型在空间同工型地图集中差异表达。
首先,我们选择了拖把的代表性切片。然后,我们使用scipy.spatial.convexhull找到了拖把的外壳。我们选择了定义拖把上边界的点,然后执行线性回归以使用sklearn.linear_model.linearregression()符合这些点。对于谷氨酸能类别的每个子类,我们鉴定了亚类的质心,并确定了质心与MOP边界线的垂直距离。我们通过除以最大距离边界距离的质心来使一组距离标准化。
我们查看所有亚类在至少90%的细胞中均表达非零的同工型。对于每种同工型,我们对所有子类进行了加权最小二乘回归,其权重等于每个子类的同工型表达方差。我们使用了statsmodel.api.sm.wls函数。所有加权最小二乘测试均使用0.01的显着性水平,并使用Bonferroni校正校正所有F-SCORE P值进行多次测试。检查绝对值坡度大于1.5的同工型的单调性。
使用转录本到基因图和过滤的同工型矩阵,我们将它们的TSS分组为TSS类,并将每个TSS类中的同工型的原始计数求和以创建一个单元格的tss矩阵。然后以与上述完全相同的方式进行差分分析。对于每个群集和每个TSS或同工型,该簇中的细胞与该簇的补充中的细胞之间进行了t检验。所有统计检验均使用0.01的显着性水平,并使用Bonferroni校正校正所有P值进行多次测试。
通过求和与单个基因相对应的计数来构建天真的基因计数矩阵。通过预期最大化(EM)算法量化的基因计数矩阵和适当地归一化的基因矩阵是通过首先通过其转录本的长度分裂的同工型丰度来制作的,然后用基因将同工型的丰富性概括为基因。在这两个基因计数矩阵上独立进行差异分析,并比较结果差异基因。然后,对EM和幼稚基因定量的所有基因进行差异表达。所有统计检验均使用0.01的显着性水平,并使用Bonferroni校正校正所有P值进行多次测试。
使用的软件版本为:Anndata 0.7.1,Bustools 0.39.4,Awk(Gnu Awk)4.1.4,Grep(Gnu Grep)3.1,Kallisto 0.46.1,KB_PYTHON 0.24.4,MATPLOTLIB 3.0.3,NUMPY 1.18.1,pandas 0.25.25.25.3,scanpy 1.4. scanpy 1.4. scanpy 1.4. scanpy 1.4. scanpy 1.4. scanpy scanpy 1.4.SED)4.4,Sklearn 0.22.1,StatsModels 0.12.1,Tar(GNU TAR)1.29,UMAP 0.3.10。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。