对于那些无视样品刻板印象的个体的脑 - 表型模型失败

2025-06-22 06:36来源:本站

  在这项工作中,我们询问模型未能更好地理解脑 - 表型关系中的群体差异。在三个数据集中,包括广泛的预测措施和各种分析方法,我们发现了一个一致的结果:模型失败在一个个体的一个子集中可靠地发生,跨表型测量和数据集进行了概括,并且与表型得分相关,这些分数与样本的刻板印象概况不适合高分和低得分手。

  总之,这些结果表明,一个模型并不适合所有模型。模型失败标识了需要不同预测模型的亚组(请参阅补充讨论中的“模型失败作为亚型的工具”)。此外,他们向我们表明,我们经常预测不是统一的结果,而是与协变量星座交织在一起的感兴趣的结果。这是至关重要的,这是至关重要的,因为这些刻板印象的概况可以教会我们有关预测的结构及其潜在偏见,并且因为这些概况对模型的通用性具有实用和概念性的影响(刻板印象,因此模型,不适合所有个人),并模型解释(确定的大脑活动模式可能代表这种概况或这种元素的元素或后果,而不是这种型号的兴趣),而不是现场型。因此,模型失败与输入数据中的偏差密不可分,如果脑 - 表型模型可以产生有用的神经科学和临床见解,则必须共同解决这些问题。我们将讨论这些观点进行讨论,并与拟议的未来工作框架结束。

  我们的结果表明,基于大脑活动的模型通常正在预测复杂的曲线而不是单一的认知过程,这突出了需要考虑这些特征以及样本表示对它们的影响的需求。例如,同龄人的样本不会证明年龄和绩效之间的关系,而针对具有独特医学健康历史的群体的目标招募可能会导致此变量与性能和错误分类有关。为了与这种直觉保持一致,选择性招募健康个体的HCP样本没有显示精神病理学和测试表现之间的关系,这是耶鲁大学和UCLA样本中存在的这种关系。

  许多相交的文献提出了样本表示对表型评分曲线的其他影响。文化对任务策略和测试绩效的影响有很好的文献记载为43,44,神经心理学测试绩效因生活课程流行病学,教育质量,文化和身体健康等因素而有所不同。45,46,47。因此,许多测试都是复合测量值20,而这些复合材料正是我们的模型正在预测的。

  此外,协变量与感兴趣结果之间的关系可能很复杂,并且在补充讨论中会差异地影响脑 - 表型关系(请参阅“协变量 - outcome的关系”)。言语记忆提供了一个说明性的示例,说明了协变量 - outcome关系中的群体差异和用于亚组特异性建模的用途。以英语为英语的人,次数彩排的表达率数字和单词跨度性能。这种关系大大减弱了本地普通话的人,他们在任务上的总体表现也比说英语的人更好。总之,这些发现表明,在文化群体之间与言语记忆有关的认知过程存在有意义的差异。为此,大脑语言记忆模板可能会为这些组构建单独的模型。这很可能会增加每个组的模型性能,这与我们的结果一致(图3),并且与先前的发现相匹配的培训和测试数据混淆关系最大化分类精度49。它还可以揭示这些特定组的模型是否跟踪不同的过程(即说英语说话者中的发音率的神经相关性,以及其他因素(例如非语言彩排过程)或语音店的能力提高 - 在普通话中speerser48)。通过在现有文献的背景下,将口头记忆测试分数的解释以及相应的基于大脑的预测模型的解释(相应的基于大脑的预测模型)可以为每个组构建,并且对这些模型的更加细微的解释可以建立。

  在一组中跟踪性能但不在另一组中跟踪性能的因素的存在与我们的发现相一致,总体而言,相同的协变量跟踪错误分类也跟踪CCP中的得分,但在MCP中却没有跟踪得分。由于模型预测了这些协变量是其中一部分的曲线,因此违抗该概况的个人将需要不同的脑 - 表型模型。例如,在所有三个研究的样本中,具有更多教育的个体在神经认知测试上倾向于得分更高,但是这种相关性并不完美。大量受教育程度较低的人得分很高,反之亦然,这些人在耶鲁大学和HCP样本中经常被错误分类(图4A,扩展数据图3E和补充表9和10)。在临床上异质的耶鲁大学和健康的HCP样品中,对这种模式的观察表明,疾病过程不能完全解释它。因此,这些案例为研究弹性,绩效障碍和替代认知策略的潜在相关性提供了机会。

  同样重要而不是互斥的是使用此类案例及其抗辩的概况,以探索输入数据中编码的偏差来源。也就是说,如果测试分数本身有偏见,则模型也可能是。在机器学习算法的应用中,已经描述了这种模型偏见,从刑事司法35,36到医疗保健37,38。必须注意相应地解释结果。例如,在神经心理学测试中,非裔美国人和西班牙裔或拉丁美洲裔美国人的得分往往低于没有西班牙裔或拉丁裔血统的美国人。46。这些群体的差异是复杂的,通常是还原主义和非因果关系。解释它们的努力集中在教育质量50,适应性47,邻里劣势51和研究方法的差异上。18,52。尽管共识的因果解释仍然是一个悬而未决的问题,但这种偏见在常用的表型度量中的普遍性18,20是一个呼吁采取行动,旨在仔细考虑哪些基于大脑的模型真正预测了哪些模型。实际上,赛车在所有三个研究的样本中都追踪了神经心理测试的表现。尽管我们的模型无法访问有关种族的信息,但种族与耶鲁大学和HCP样本中的错误分类频率有关,因此与种族化群体相同的高分参与者(请参阅方法)经常被错误地分类为低分,而白人参与者的副人反之亦然。这一发现让人联想到针对替代制裁(Compas,现在的“等效”)System36和非洲裔美国人“预测转移”的最新证据的惩教罪犯管理分析所造成的错误。14。

  我们试图避免过度解释这些发现,并再次注意到,种族是无毒理的非生物学代理,对于未测量的变量,这些变量掩盖了这些样本中许多异质性(请参阅补充讨论中的“其他限制和未来方向”)。我们的结果揭示的是意外,并且在两个模型输入中很容易错过偏差(也就是说,由可用评估工具限制了限制的表型度量18,20,例如构成NIH Toolbox53,54的测量工具)和模型输出(也就是说,与模型相对应的配置文件)。这种偏见很重要,原因有两个:(1)由于错误的原因,它可能会产生正确的预测;研究人员可以将模型解释为统一表型结构的神经表示,或者可能承认协变量的作用,但错误地假定因果关系。(2)它决定了模型通用性的限制,从而指导模型的实际应用。正如我们所证明的那样,模型代表了一个复合曲线,并且该模型的推广性将仅限于适合此配置文件的组,对于模块的组来说,在下面的多个和相交的维度上表征了这些刻板印象的样品中的这些刻板印象(请参阅下面的“局限性和未来方向”中的特定建议”)。

  值得注意的是,我们表明,错误分类的个人(无视共识分数概况的人)没有独特的大脑组织。相反,CCP和MCP之间的关系是大脑和表型之间的关系。具体而言,MCP不需要完全不同的模型来对其表型进行分类。这一发现与我们期望与CCP中与表型相关的边缘的期望与MCP中的表型无关,因此错误分类将识别具有给定表型基础的不同宏观神经电路的组。相反,MCP正相关的边缘与CCP显着重叠,反之亦然,而简单地颠倒了对一组训练的模型产生了另一组的成功分类,这表明每个模型都基于刻板印象的Ingroup-Outip-Outgroup二分法。但是,在更具人口统计学的样本中,这些刻板印象的影响将被最小化,并且可以观察到与表型相关的电路的更细微的群体差异。

  此外,我们不寻求建议这些预测模型仅反映了协变量的星座。大脑和表型之间的表型和共享差异可能是归因于感兴趣的认知过程的差异。确实,有广泛的心理测量学文献描述了神经心理学测量的构建有效性55,最近的一些研究证明了基于FC的预测模型的表型特异性8,56。在耶鲁大学,加州大学洛杉矶分校和HCP数据,即使控制了所有包含的协变量,大脑和表型之间的关系在大多数情况下仍然显着(扩展数据表1)。因此,基于FC的预测建模揭示的宏观电路可以解释为感兴趣构建体和一系列样品依赖性人群和临床变量的复杂混合物的神经表示。

  解开这些关系为未来的研究提供了一个重要而广泛的机会。这些问题与在各个级别的分析层面上关联神经和表型数据的工作有关,因此不仅限于人类神经科学。随着个体差异在细胞和系统神经科学中的注意力增加,精确的表型表征和模型解释将至关重要。因此,我们的结果鼓励每个建模者收集所需的数据,以确定并在可能的情况下纠正其样品中给定表型的刻板印象。

  这样做必须从学习设计开始。Given the importance of sociodemographic and clinical covariates to brain–phenotype modelling analyses, future work should further characterize score profiles, looking to best-practice guidelines to collect more expansive and inclusive demographic data58, increase the enrolment of underrepresented groups and exchange proxies such as race for more meaningful causal or explanatory variables59,60,61,62,63,64 (see补充讨论中的“其他局限性和未来方向”,以了解这项工作中种族的使用和表征)。为了提供结果的概括性和原则证明,我们介绍了与所有研究表型措施中模型失败有关的协变量,但是这种未来的工作将允许鉴定在补充讨论中更精确和表型特定的刻板印象(“其他局限性和未来指示”)。同时,必须仔细选择表型措施并给予其有效性18,52。这些选择可以通过工具来指导,以评估研究设计中偏见的风险(例如,Probast,步骤365)。

  然后,一旦收集数据,就必须使用它们。也就是说,必须对建模分析进行调整,以询问我们的兴趣措施结果的因素组合,以及我们如何解释相关的大脑活动模式。首先,统计工具可在可能的范围内用于隔离感兴趣的表型。当标准化表型度量时,应仔细考虑规范以确保适当性(例如,对于NIH Toolbox66,67,但请参见参考文献53,54)。此外,可以校正数据以确定的混杂。许多混淆校正的方法取决于以下假设:样本中所有个体都有单个协变量 - outcome的关系。如果不是这种情况,正如我们在这里所显示的那样,那么这种更正将失败,甚至可能引起混杂关系,而实际上不存在68。为了解决这个问题,需要采用更复杂的校正方法来解释特定于样本的刻板印象(例如,使用跨期混杂的使用,基于混杂的样本拆分68,逆向概率权重69或事后混淆Control70)。但是,不可避免地会保留混淆。建模者有责任使用先前收集的,全面的社会人口统计学数据来精确表征这些持续的混杂并相应地解释结果模型:作为复合表型的群体特定神经表示。有关这些步骤的摘要,请参见图6。

  忽略这些问题是要冒险缺失结构性模型故障,以及仅适用于人口的特定(但未表征)的模型的开发。只有通过整合标准模型评估标准(例如,准确性,灵敏度和特异性)和对模型故障进行更彻底的研究,我们才希望定义每个模型概括为71并摆脱单一适合所有方法的局限性的种群。该模型在数据驱动的脑 - 表型关系的研究中并不总是一个问题。但是,我们必须描述这些概况以识别潜在的有害偏见,并知道给定模型是否以及如何适用于我们面前的个人。这样做为基于大脑的预测模型的可能应用开辟了世界,其中最主要的是鉴定神经标志物,这两者都阐明了疾病的生物学基础和指导干预。

左文资讯声明:未经许可,不得转载。