单细胞分辨率的语言理解期间的语义编码

2025-06-24 22:22来源:本站

  所有程序和研究均根据马萨诸塞州综合医院机构审查委员会进行,并严格遵守哈佛医学院的指南。该研究中包括的所有参与者均计划进行计划的清醒术中神经生理学和单神经元记录,以进行深脑刺激靶向。手术的考虑是由包括神经科医生,神经外科医生和神经心理学家在内的多学科团队进行的,18,19,55,56,57。进行手术的决定是独立于研究候选或入学率做出的。此外,所有微电极入口点和位置纯粹基于计划的临床靶向,并且独立于任何研究考虑。

  仅在患者同意并安排了手术后,就一次又一次地审查了他们参与研究的候选人资格,就以下纳入标准进行了审查:18岁或以上,右手占主导地位,能够提供知情同意,以提供知情的研究参与和示范英语流动性。为了评估语言理解和参与研究的能力,对参与者进行了随机抽样的句子,然后被询问了有关它们的问题(例如,“ Eva在瓶子里放了一个秘密信息”,然后是“放置在瓶子里的东西?”)。参与者无法回答有关测试的所有问题被排除在考虑之外。所有参与者都同意参加该研究,并可以在任何时候自由退出,而不会导致临床护理。总共招募了13名参与者(扩展数据表1)。没有使用参与者盲目或随机分组。

  在计划深度大脑刺激器放置的参与者中进行了微电极记录19,58。在深度脑刺激器放置之前的标准术中记录中,微电极阵列用于记录神经元活性。在临床记录和深脑刺激器放置之前,在计划的临床放置部位暂时由皮质色带制作记录。这些录音在很大程度上沿着语言主导半球的背前额叶皮层内的上部后额回。在这里,每个参与者的计算机断层扫描均被共同注册到其磁共振成像扫描中,并进行了分割和归一化过程,以将天然的大脑带入蒙特利尔神经学研究所空间。然后使用SPM12软件确认记录位置,并在标准的三维渲染大脑(SPM152)上可视化。蒙特利尔神经学研究所的记录坐标在扩展数据表1中提供。

  我们使用两种主要方法来执行Cortex18,19的单神经元记录。总共使用Tungsten微阵列(Neuroprobe,Alpha Omega Engineering)进行了录音,并使用线性硅微电极阵列(Neuropixels,IMEC)进行了记录。对于钨微阵列的记录,我们纳入了食品和药物管理批准的,可生物降解的纤维蛋白密封剂,该密封剂最初是在皮质表面和头骨内表(Tisseel,Baxter)暂时放置的。接下来,我们以10–100 µm的增量逐渐递增了最多五个钨微电极(500–1,500kΩ; alpha omega工程)的阵列,以识别和隔离单个单元。一旦确定了假定的单元,将微电极保持在位几分钟以确认信号稳定性(我们没有筛选假定的神经元以确定任务响应能力)。在这里,使用神经欧米茄系统(Alpha Omega Engineering)记录神经元信号,该系统以44 kHz对神经元数据进行了采样。神经元信号被放大,带通路过滤(300 Hz和6 kHz),并储存离线。大多数人参加了两个录音会议。从皮层完成神经记录后,按计划进行了皮质下神经元记录和深脑刺激剂的位置。

  对于硅微电极记录,将无菌神经质子探针31(版本1.0-S,IMEC,通过生物谷杀菌的乙烯氧化物)被带入皮质色带中,并连接到Rosa One Brain(Zimmer Biotic)机器人手臂的机械手机器人。探针(宽度:70 µm,长度:10毫米,厚度:100 µm)由960个接触位点(384个预选记录通道)组成,这些接触位点以Chequerboard模式布置。通过多路复用电缆连接了3B2 IMEC媒体舞台,与PXIE获取模块卡(IMEC)连接到PXIE底盘(PXIE-1071底盘,National Instruments)。使用OpenEphys(版本0.5.3.1和0.6.0; https://open-ephys.org/)在与PXIE获取模块相连的计算机上进行了神经蛋白录音,该录音是在0.3到10 kHz的情况下记录动作电位频段(30 kHz的频段)的500次频段(30 kHz)的频段(频段)。采样2500 Hz)。一旦确定了假定的单位,将简要地将神经质子探针定位在位以确认信号稳定性(我们没有筛选假定的神经元以供语音反应能力)。参考文献中可以找到此录音方法的其他描述。20,30,31。在完成皮质色带的单神经元记录后,去除神经蛋白探针,并按计划进行皮层神经元记录和深脑刺激剂的放置。

  对于Tungsten微阵列录音,通过Plexon工作站确定了假定的单位并脱机。为了允许跨记录技术的一致性(即,与神经偶像记录有关),使用半自动山谷寻求的方法来对推定神经元的动作潜在活动进行分类,并且仅使用了良好的单元单元。在这里,对动作电位进行了分类,以允许在记录技术上进行可比的隔离距离为59,60,61,62,63和单位选择,以前的方法为27,28,29,64,65,并限制了多单位活动(MUA)的纳入。需要清楚地与通道噪声明显分离的假定神经元的候选神经元,显示与皮质神经元相一致的电压波形,并且具有99%或更多的动作电位,该动作电位由至少1 ms的尖峰间间隔隔开(扩展数据图1B,d)。删除了明显不稳定的单位,并且在分析中排除了几乎没有尖峰活动的任何长期(例如,大于20个句子)。总共进行了18个记录会话,每个多电极阵列平均每个会话为5.4个单位(扩展数据图1A,B)。

  对于Neuropixels录制,使用Kilosort确定了假定的单元并离线分类,并且仅使用了良好的单元单元。我们使用电生理数据的分散注册(Dredge; https://github.com/evarol/dredge)软件和插值方法(https://github.com/williamunoz/williamunoz/interpolationafterdredge)使用自动化的频道进行了频道,该协议纠正了频道,该协议是在自动化的频道上纠正了该频道,该协议是在实现频道上进行纠正的,该协议纠正了该频道,以实现频道的频道,以实现频道的依据,以实现频道的依据,该协议是在该频道上进行的。大脑运动31,66。此后,我们使用疏edge运动估算插入了来自动作电势频段的连续电压数据,以允许随时间稳定跟踪记录的单元的活动。最后,使用半自动化的Kilosort Spike分选方法(版本1.0; https://github.com/cortex-com./cortex-lab/kilosort)从运动校正的插值信号中鉴定出假定的神经元,然后是phy for for for for for cluster curation(版本2.0A1; https:/ https://github.com.com.com/cort.com/cortex-lab/phybab/phy)。在这里,使用N型群体方法来优化单个单元的隔离并限制了MUA67,68的包含。清除了明显不稳定的单位,并将几乎没有尖峰活动的任何长期(例如,大于20个句子)排除在分析之外。总共进行了3次记录会话,每个多电极阵列平均每个会话为51.3个单位(扩展数据图1C,D)。

  为了与单神经元数据进行比较,我们还分别分析了MUA。这些MUA反映了从相同的电极记录的多个推定神经元的合并活性,其独特的波形为57,69,70。通过将所有记录的尖峰与基线噪声分开来获得这些MUA。与单个单元不同,尖峰没有根据其波形形态分开。

  使用Pyaudio库(版本0.2.11),使用Python脚本将语言材料以音频格式提供给参与者。使用两个麦克风(Shure,pg48)在22 kHz中采样音频信号,这些麦克风(Shure,pg48)都集成到alpha欧米茄钻机中,以使用神经元数据进行高保真时间对齐。录音以半自动化的方式注释(Audacity;版本2.3)。对于NeuroPixels记录,以44 kHz采样频率(Tascam DR-40×4通道4通道4轨可移植音频记录器和USB接口,具有可调节麦克风的USB)进行了录音。为了进一步确保每个单词令牌与神经元活性的颗粒时间对齐,每个会话记录的幅度波形和预录的语言材料是交叉相关的,以识别时间偏移。最后,为了获得其他确认,每个单词令牌及其时机的出现都是手动验证的。这些措施共同使神经元活动的毫秒级别对齐,每个单词都出现,因为参与者在任务过程中听到了它们。

  向参与者展示了八个字的句子(例如,“孩子弯腰闻到玫瑰闻到玫瑰”;扩展数据表1),这些句子提供了各种主题内容和上下文的语义上多样化单词的广泛样本4。为了确认参与者正在关注,每10-15个句子都会使用一个简短的提示,询问他们是否可以继续下一个句子(参与者通常在1-2秒内做出回应)。

  同音配对用于评估与语音含量无关的神经活动的特定意义变化。所有同音词都来自句子实验,其中有同音词,其中同音配对中的单词来自不同的语义域。同音词(例如,“太阳”和“儿子”;扩展数据表1),而不是同谱部,用作嵌入一词为每个独特的令牌而不是每个令牌含义都产生独特的向量。

  使用单词列表控制来评估句子上下文对神经元反应的影响。这些单词列表(例如,“在自行车中使用海盗是一个”;延长的数据表1)包含与句子呈现期间给出的单词相同的单词,并且长度为八个单词,但是它们是随机的,因此消除了语言上下文对词汇词的词汇处理的任何效果。

  使用非单词控制来评估神经元反应对语义(语言意义)与非语义刺激的选择性。在这里,参与者得到了一组非单词,例如“ blicket”或“ florp”(八组),它们在语音上听起来像单词,但没有任何意义。

  录音结束时介绍了故事叙事的摘录,以评估神经元反应的一致性。在这里,与代替了八个字的句子,而是为参与者提供了一个简短的故事,讲述了猫王的生活和历史(例如,“十岁那年,我无法弄清楚这个埃尔维斯·普雷斯利(Elvis Presley)的家伙拥有我们其他男孩没有的人没有的是什么”;扩展数据表1)。之所以选择这个故事,是因为它是自然主义的,包含了新单词,并且在风格和主题上与前面的句子不同。

  为了研究神经元对特定语义域内单词的选择性,参与者听到的所有独特单词均使用嵌入术语的单词将其聚集成组35,37,39,42。在这里,我们使用了从使用Skip-gram Word2Vec11算法在1000亿个单词的语料库上生成的预处理数据集中提取的300维矢量。然后,使用Python Gensim库(版本3.4.0;图1C,左)将句子中的每个唯一单词与其相应的向量配对。较高的Umigram频率词(大于2.5的对数概率),例如“ A”,“ AN”或“和”,几乎没有语言含义。

  接下来,对于参与者在代表性语义域中听到的单词,我们使用了球形聚类算法(V.0.1.7,Python 3.6),该算法使用其代表性向量之间的余弦距离。然后,我们在这个新空间中进行了K-均值聚类程序,以获得不同的单词簇。因此,这种方法基于其矢量距离进行了分组,反映了单词37,40之间的语义相关性,这已证明可以很好地获得一致的单词clusters34,71。使用伪随机启动群集播种,重复K-Means过程100次,以生成最佳群集数的值分布。对于每次迭代,计算了针对5至20之间的簇数的轮廓标准。平均标准值最大的群集(以及最常见的值)为9,被视为使用34,37,43,44的语言材料的最佳簇数。

  纯度度量和D'分析用于确认语义结构域的质量和可分离性。为此,我们从100个迭代中的60%的句子中随机取样。然后,我们使用上述相同的球形聚类过程将这些子采样句子中采样的所有单词分组为簇。然后,通过考虑所有可能的匹配安排并以最大的单词重叠选择安排,将新簇与原始群集匹配。最后,评估了“纯度”的聚类质量,这是正确分类的单词总数的百分比。72。因此,此过程是一个简单且透明的度量,在0(不良聚类)到1之间变化(完美的聚类;图1D,底部)。该分配的准确性是通过计算正确分配的单词的总数并除以新簇中的单词总数:

  其中n是新簇中的单词总数,k是簇的数量(即9),是来自新簇的集群,是原始群集(来自原始群集的集合),具有最大的群集计数。最后,为了确认簇的可分离性,我们使用了标准的D'分析。与分配给所有其他簇的单词相比,D'公制估计所有分配给特定群集的单词的矢量余弦距离之间的差异(图2a)。

  根据每个群集的质心附近的单词优势,在此标记了所得的群集。因此,尽管并非所有单词似乎都在每个域中都贴在每个域中,但由此产生的语义域反映了单词基于其语义相关性的最佳矢量聚类。为了进一步进行比较,我们还引入了精致的语义域(扩展数据表2),其中每个群集中提供的单词由两个独立研究成员根据其主观语义相关性手动重新分配或删除。因此,例如,在标有“动物”的语义领域下,任何不提及动物的单词都被去除了。

  为了评估神经元对不同语义域内单词的选择性,我们计算了它们与每个单词发作一致的触发率。为了确定意义,我们将每个神经元的活性与属于特定语义域(例如“食物”)的单词(例如,所有其他语义域的单词)进行了比较(例如,除了“食物”以外的所有域)。然后,我们使用双面的秩-SUM检验,然后评估该语义域中单词的活性是否与所有语义域中的活动有显着差异,其中P值是使用Benjamini – Hochberg方法进行错误的发现速率调整以说明所有九个域中所有九个域的重复比较。因此,例如,当指出神经元对“食物”的领域表现出显着的选择性时,这意味着与所有其他单词相比,它在该域内对单词的活动表现出显着差异(也就是说,它对描述食物的单词有选择性地响应)。

  接下来,我们确定了每个神经元的SI,该SI量化了与其他神经元相比,它对特定语义域内的单词响应的程度。在这里,SI是由细胞在特定语义域内区分单词(例如“食物”)中分化单词并反映调制程度的能力来定义的。每个神经元的SI计算为

  其中是神经元的平均发射率,响应在被考虑的域内单词,是对被考虑域之外的单词的平均触发率。因此,与其他神经元相比,SI基于每个神经元首选的语义域的活性绝对差异的效果幅度。因此,该函数的输出为0和1。0的SI表示,在任何语义结构域(即神经元都没有选择性)之间的活性没有差异,而SI为1.0的Si只有在听到一个语义域内听到单词时,神经元才会更改其动作电位。

  使用引导分析来进一步确认每个神经元在两部分中的语言材料中的可靠性。对于第一种方法,将单词随机分为60:40%的子集(重复100次),并在两个单词子集中比较了语义选择性神经元的SI。在第二个方面,我们不使用平均Si,而是计算出神经元在随机选择60%句子中的单词时对其他类别表现出选择性的次数的比例。

  跨分析窗口的神经元响应的一致性在两个部分中得到了证实。一个单词的开头和下一个单词之间的平均时间间隔为341±5 ms。对于所有主要分析,在400毫米窗口中分析了神经元反应,并与每个单词保持一致,并使用100毫秒的时间段,以进一步说明前额叶神经元的诱发响应延迟。为了进一步确认语义选择性的一致性,我们首先使用350毫米和450毫秒的时间窗口检查了神经元反应。在所有13名参与者中的记录结合在一起时,当窗口大小增加±50 ms(17%和15%,χ2(1,861)= 0.43,p = 0.81)时,观察到了表现出选择性的相似比例,这表明精确的分析窗口并没有显着影响这些结果。其次,我们确认单词之间可能的重叠不会通过重复我们的分析来影响神经元的选择性,但现在仅评估每个句子中的非纽带内容词。因此,例如,对于“孩子弯曲闻到玫瑰”的句子,我们将仅评估每个句子的非纽布单词(例如,儿童,下降等)。使用这种方法,我们发现非重叠窗口的SI(即其他单词)与原始SIS没有显着差异(0.41±0.03对0.38±0.02,t = 0.73,p = 0.47);共同证实单词之间的潜在重叠不会影响观察到的选择性。

  为了评估可以从每个字级别通过神经元活性预测的语义域的程度,我们随机对60%的句子进行了采样单词,然后使用其余40%的句子进行了1,000次迭代的验证。只有表现出明显的语义选择性并记录足够单词和句子的候选神经元用于解码目的(48个48个选择性神经元中的43个)。为此,我们将所有参与者的所有候选神经元与他们的触发率串联为自变量,并预测了单词的语义域(因变量)。然后使用支持向量分类器(SVC)来预测验证词所属的语义域。构建了这些SVC,以找到最佳的超平面,这些平面可以通过执行最佳分离数据

  约束

  其中,与单个单词的分类相对应的是神经活动,并且。正则化参数C设置为1。我们使用了线性内核和“平衡”类重量来解释单词在不同域之间的不均匀分布。最后,在自举训练数据上对SVC进行建模后,通过使用随机采样并根据验证数据进行自举的单词来确定模型的解码精度。在将数据集的1,000个不同排列的群集标签随机调整后,我们通过计算分类器的精度进一步生成了无效分布。因此,这些模型共同从所有选择性神经元的合并活性模式中确定了最可能的语义域。然后计算出经验P值,该计算是从洗牌数据中解码精度的排列百分比大于使用原始数据获得的平均得分。统计显着性以p值确定< 0.05.

  To quantify the specificity of neuronal response, we carried out two procedures. First, we reduce the number of words from each domain from 100% to 25% on the basis of their vectoral cosine distance from each of their respective domains’ centroid. Thus, for each domain, words that were closest to its centroid, and therefore most similar in meaning, were kept whereas words farther away were removed. The SIs of the neurons were then recalculated as before (Fig. 1h). Second, we repeated the decoding procedure but now varied the number of semantic domains from 2 to 20. Thus, a higher number of domains would mean fewer words per domain (that is, increased specificity of meaning relatedness) whereas a smaller number of domains would mean more words per domain. These decoders used 60% of words for model training and 40% for validation (200 iterations). Next, to evaluate the degree to which neuron and domain number led to improvement in decoding performance, models were trained for all combinations of domain numbers (2 to 20) and neuron numbers (1 to 133) using a nested loop. For control comparison, we repeated the decoding analysis but randomly shuffled the relation between neuronal response and each word as above. The percentage improvement in prediction accuracy (PA) for a given domain number (d) and neuronal size (n) was calculated as

  We compared the responses of neurons to homophone pairs to evaluate the context dependency of neuronal response and to further confirm the specificity of meaning representations. For example, if the neurons simply responded to differences in phonetic input rather than meaning, then we should expect to see smaller differences in firing rate between homophone pairs that sounded the same but differed in meaning (for example, ‘sun’ and ‘son’) compared to non-homophone pairs that sounded different but shared similar meaning (for example, ‘son’ and ‘sister’). Here, only homophones that belonged to different semantic domains were included for analysis. A permutation test was used to compare the distributions of the absolute difference in firing rates between homophone pairs (sample x) and non-homophone pairs (sample y) across semantically selective cells (P < 0.01). To carry out the permutation test, we first calculated the mean difference between the two distributions (sample x and y) as the test statistic. Then, we pooled all of the measurements from both samples into a single dataset and randomly divided it into two new samples x′ and y′ of the same size as the original samples. We repeated this process 10,000 times, each time computing the difference in the mean of x′ and y′ to create a distribution of possible differences under the null hypothesis. Finally, we computed the two-sided P value as the proportion of permutations for which the absolute difference was greater than or equal to the absolute value of the test statistic. A one-tailed t-test was used to further evaluate for differences in the distribution of firing rates for homophones versus non-homophone pairs (P < 0.001). To allow for comparison, 2 of the 133 neurons did not have homophone trials and were therefore excluded from analysis. An additional 16 neurons were also excluded for lack of response and/or for lying outside (>2.5次)四分位数范围。

  信息理论指标(例如“惊奇”)定义了可以根据其先例句子上下文预测单词的程度。为了检查每个单词在每个字级别调制神经元响应的上下文如何量化每个单词的惊喜:如下:

  其中p表示句子中位置I处的当前单词(w)的概率。在这里,使用了预算的长期记忆复发网络来估计P(Wi | W1…Wi-1)73。因此,根据其先前环境更可预测的单词将具有低惊喜的情况,而无法预测的单词则具有很高的惊喜。

  接下来,我们研究了惊人的神经元在每个字级别上准确预测正确的语义域的能力。为此,我们使用了与上述类似的SVC模型,但现在分裂了表现出高与低惊奇的单词之间的解码性能。因此,如果单词的含义表示确实是由句子上下文调节的,那么根据其先前上下文更可预测的单词应表现出更高的解码性能(也就是说,我们应该能够从神经元反应中更准确地预测其正确的含义)。

  为了评估神经群体内语义表示的组织,我们将每个神经元的活性回归到300维嵌入的载体上。每个神经元的归一化发射速率被建模为单词嵌入元件的线性组合,以便

  其中是与每个单词W的发作的ITH神经元的触发速率,是优化线性回归系数的列向量,是300维单词嵌入与Word W相关的行矢量,并且是模型的残差。以每个神经元为基础,使用正则化线性回归估算,该线性回归使用最小二乘误差计算训练,ridge惩罚参数λ= 0.0001。然后将每个神经元的模型值(尺寸= 1×300)加入(维度= 133×300),以定义一个假定的神经元 - 道义空间θ。因此,这些可以将其解释为嵌入空间中特定维度对给定神经元活性的贡献,从而使所得的转化矩阵反映了由神经元种群代表的语义空间。

  最后,使用PC分析来沿神经元维度降低θ。这导致了一个由五个PC组成的中间缩小空间(θPCA),每个PCA = 300,总计约为解释方差的46%(语义选择性神经元为81%)。由于此过程保留了相对于嵌入长度的维度,因此可以通过沿每个PC的单词嵌入来确定单词在该空间内的相对位置。最后,为了量化从该PC空间(神经元数据)衍生的单词投影之间的关系与源自嵌入空间(英语单词语料库)的程度相关,我们计算了它们在所有单词对中的相关性。从可能的258,121个单词对(参与者的特定单词对的可用性不同)中,我们比较了神经元和单词嵌入投影之间的余弦距离。

  由于我们的PC空间中的单词投影是向量表示,因此我们还可以计算其层次关系。在这里,我们进行了一个团聚性的单链接(即最近的邻居)层次聚类过程,以构建一个模拟图,该模拟图表示我们PC空间中所有单词投影之间的语义关系。我们还研究了单词嵌入空间中的辅助距离与所有单词对中神经元活性的差异之间的相关性。单词对之间的copophenetic距离是量表间差异的量度,定义为最大的两个群集之间的距离,当将两个单词合并为一个包含两个单词的群集中,该群集包含两个单词,其中包含49,50,51。直观地,单词对之间的cophenetic距离反映了树突图的高度,其中两个分支包含这两个单词合并到一个分支中。因此,为了进一步评估英语中观察到的单词之间的神经元活动是否反映了单词之间的层次语义关系,我们还检查了300维单词嵌入空间中的cophenetic距离。对于每个单词对,我们计算了神经元活动的差异(即,这些单词在整个人群中的平均归一化发射率之间的绝对差异),然后评估这些差异与源自单词嵌入空间的单词之间的相互距离之间的相关性。这些分析是对语义选择性神经元种群进行的(n = 19)。为了进一步的个人参与者比较,更细微的距离进行了分类,排除离群值以允许在参与者之间进行比较。

  为了可视化从PC分析在人群级别上获得的单词投影的组织(n = 133),我们进行了一个T分配的随机邻居嵌入过程,将每个单词投影转化为新的二维嵌入空间θtsne(参考74)。这种转换利用了源自神经数据的单词投影之间的余弦距离。

  为了进一步验证我们的结果,我们使用了WordNet相似性指标75。与嵌入方法基于广泛语言语料库的建模不同,WordNet是一个语义关系的数据库,基于其含义的相似之处,将单词组织成“ synset”,例如“犬”是“狗”的超级nym,但“狗”也是“狼”的坐标。因此,尽管Synset不提供可用于评估对特定语义域的神经元反应的矢量表示,但它们确实提供了可量化的单词相似性量度75,可以将其回归到神经元活动中。

  最后,为了确保我们的结果不受任何特定参与者的驱动,我们进行了一项剩余的交叉验证参与者抛弃程序。在这里,我们重复了上述的几个分析,但现在在1,000个迭代中依次删除了个人参与者(即参与者1-10)。因此,如果任何特定的参与者或参与者群体不成比例地促成结果,他们的去除将显着影响他们(单向方差分析,p <0.05)。使用χ2检验(P <0.05)进一步评估参与者神经元分布的差异。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。