2025-06-25 04:54来源:本站
接下来,我们评估了MLC在这些挑战性的概括任务上产生人类水平的系统概括和类似人类的错误模式的能力。成功的模型必须从几个示例中学习和使用系统的单词,并且更喜欢捕获结构化的输入/输出关系的假设。MLC的目的是指导神经网络来进行参数值,该值面对未知任务时,请准确支持这些类型的概括并克服先前对系统性的限制。重要的是,这种方法旨在对成人组成技能进行建模,而不是成年人获得这些技能的过程,这是一般讨论中进一步考虑的问题。MLC源代码和验证模型可在线提供(代码可用性)。
如图4所示,并在方法的“体系结构和优化器”部分中详细介绍,MLC使用标准变压器体系结构26用于基于内存的元学习。MLC优化了在给定一组输入/输出对的新指令(查询输入)的变压器(研究示例;也称为支持示例21),所有这些都被串联并作为输入一起传递。这相当于元学习,因为优化是在动态变化的情节(每个研究和查询示例)而不是静态数据集中发生的。具体而言,每个情节构成通过随机生成的潜在语法来将输入解释为输出的不同SEQ2SEQ任务30,31(请参阅方法的“ MLC和MLC变体”部分的“元训练过程”)。为了取得成功,变压器必须找到能够从研究单词中提取含义的参数值并撰写它们以回答查询,依靠元学习,但在变压器体系结构中也没有在Fodor和Pylyshyn的参数中设想出的创新(例如,可变的长度输入,参数共享和自我自我分享和自我自我)。在测试发作中,模型权重冷冻,没有提供特定于任务的参数32。最后,考虑到建模人类响应(包括错误)的最终目标,我们将每个查询与代数输出序列(通过该情节的语法生成)或启发式输出序列(通过一对一的翻译或误解的规则进行采样),以与仿期相同的比例(请参阅“ meta-meta-meta)”(meta-Metc),并将其分为相同(MELC)。方法)。
MLC能够优化高度系统性行为的模型。最系统的运行产生了一个完美系统的变压器(精确匹配的精度),当在对人提供的相同的几次指令学习任务上选择最佳响应时(图2;请参阅方法的“评估程序”部分,以获取详细信息和补充信息1的“评估程序”部分,以获取10次运行的模型变异性),并还可以推断出具有元素元素的新颖规则(替代了元素)。对这项运行的非正式分析进一步表明,MLC还具有更微妙和偏见的行为。当从模型输出的分布中取样(图2B)时,变压器以接近人类绩效(80.7%)的平均速率(82.4%)产生系统输出,并以人类水平(72.5%)的速度(77.8%)以较长的输出序列(77.8%)处理更长的输出序列。此外,像人一样,MLC变形金刚犯了反映一对一翻译的错误(占错误的56.3%;人为24.4%)和标志性的串联(涉及功能3的错误的13.8%;人为23.3%)。MLC还可以平均预测哪些说明更容易或更难(Pearson的r = 0.788,P = 0.031,两尾排列测试,n = 10个项目;在扩展数据图1中显示了项目级的性能。正式地,在表1(几次学习)中,我们通过模型预测的所有人类响应的对数可能性(图2b(i))比较模型。33。在本段的其余部分中,当我们说一种模型优于另一个模型时,有8个自然日志点或更高的差异。MLC变压器(表1; MLC)在预测人类行为方面的表现要优于更严格的系统模型。这包括一个概率的符号模型,该模型假设人们推断金语法,但偶尔会进行任意失误(符号(oracle); 在方法的“替代神经和符号模型”部分中提供了所有符号和基本SEQ2SEQ模型的详细信息)和在与MLC相同的训练情节上进行优化的变压器,尽管具有代数(而不是基于偏见的)输出响应(MLC和MLC)(MMLC和MLC的详细信息); MLC的详细信息是MLC的详细信息。方法的变体部分)。MLC还胜过基本的SEQ2SEQ变压器拟合图2中的模式,而无需元学习,并且优化了用于复制而不是系统概括的MLC模型(MLC(仅复制);在培训期间,查询示例始终匹配其中一个研究示例)。MLC变压器的性能与概率符号模型相当,该模型假定人们推断金语法,但对基于人类电感偏见(符号(oracle/偏见))的lapses进行了随机响应。确实,MLC类似地优化了(隐式)推断系统规则,并以相同的基于偏见的模式做出响应,因此,这两个模型的性能很自然。如下一段中所述,最佳表现的MLC(联合)在几个射击学习任务和开放式人类反应上共同优化。
尽管人类几乎没有学习的行为可以通过MLC或概率符号模型很好地表征,但对更开放的行为的测试强调了MLC的相对优势。相同的变压器体系结构对开放式参与者行为进行了优化,然后要求填写七个指令的输出(图3;请参见方法的“评估程序”部分)。MLC变压器的响应与65.0%的样品中的模态参与者的反应完全相同(图3B(左)),完美实例化了三个关键的电感偏见。非正式分析进一步表明,MLC捕获了只有部分使用电感偏见的更细微的响应模式(图3B(右))。在所有模型样本中,有66.0%的人遵循一对一(62.1%的人),85.0%的人遵循标志性的串联(人为79.3%),绝大多数(99.0%)为每个独特命令(93.1%的人)选择了独特的响应(对人来说为93.1%)。还通过五倍的交叉验证33:MLC对模型预测进行了评估,其他模型对23或24名参与者的响应进行了优化(取决于交叉验证拆分),然后预测了对持有参与者的响应。性能是通过对数类样的评分,并在表1(开放式)中进行了总结(在五个交叉验证拆分上汇总,平均在三个运行中)。在本段的其余部分中,当我们说一种模型优于另一个模型时,有57个自然日志点或更高的差异。MLC的表现优于所有替代方案,包括与先前实验(MLC(仅代数))所述的高度代数MLC模型和使用三种归纳偏置来产生响应的概率象征模型,但与MLC相反,但是对人类行为中的其他模式(表1; symace)均不能优化其他模式(或者)。重要的是,可以针对少量学习和开放式指令任务(MLC)进行优化单个变压器 (联合的));实际上,这是用于预测人类行为的实验中最强的总体模型(在扩展数据中显示了其他分析图5和补充信息1)。