使用语义熵在大语言模型中检测幻觉

2025-06-24 20:56来源:本站

  “幻觉”是使用大语言模型(LLM)(例如ChatGpt1或Gemini2)的自然语言生成系统的关键问题9,因为用户无法相信任何给定的输出是否正确。

  幻觉通常被定义为LLMS产生的“对提供的源内容的荒谬或不忠的内容” 9,10,11,但它们已经包括一系列忠实和事实的失败。我们专注于幻觉的一部分,我们称之为“ Confabulations” 12,而LLMS流利地提出既是错误又任意的主张,这是我们的意思是答案与无关紧要的细节(例如随机种子)敏感。例如,当被问及一个医学问题时,“索托拉西布的目标是什么?”LLM有时通过回答KRASG12“ C”(正确)和其他时间Krasg12'd(不正确)来概括。我们将其与类似的“症状”的情况区分开来,这是由以下不同机制引起的:当LLMS始终是错误的错误数据时,LLM始终是错误的,例如常见的误解13;当LLM“谎言”以追求奖励14时;或系统推理或概括的系统失败。我们认为,将这些独特的机制结合在广泛类别的幻觉中是无益的。我们的方法通过检测人们可能认为合理的概述来提供可扩展的监督15的问题的一部分问题。但是,它不能保证事实,因为当LLM输出系统不良时,它无济于事。然而,我们显着提高了最先进的LLM的提问准确性,这表明欺骗是目前的出色误差来源。

  我们通过制定何时可能导致LLM产生任意和未接地答案的定量度量来展示如何检测欺骗。检测纵容允许在LLM上构建的系统,以避免回答可能引起欺诈的问题,使用户意识到问题答案的不可靠性或通过更接地的搜索或检索来补充LLM。这对于自由形式生成的关键新兴领域至关重要,在这种新兴领域中,天真的方法适合封闭的词汇和多项选择,失败。LLMS的过去不确定性工作集中在更简单的设置上,例如分类器16,17和回归器18,19,而LLMS最令人兴奋的应用程序与自由形式的世代相关。

  在机器学习的背景下,术语幻觉最初是从填写未接地的细节,无论是故意策略20还是作为可靠性问题4。隐喻的适当性被质疑为促进过度拟人化21。尽管我们同意必须与LLMS22仔细使用隐喻,但幻觉一词的广泛采用反映了以下事实:它指出了一个重要现象。这项工作代表了使这种现象更加精确的一步。

  为了检测综合,我们使用概率工具来定义,然后测量LLM世代的“语义”熵,这是根据句子的含义计算的熵。高熵对应于高不确定性23,24,25-因此语义熵是估计语义不确定性的一种方法。语义不确定性,即我们引入的更广泛的措施类别,可以通过其他不确定性措施(例如相互信息)进行操作。自由形式产生的熵通常很难衡量,因为答案可能意味着相同的事物(在语义上是等效的),尽管表达方式不同(句法或词法上不同)。这会导致熵或其他词汇变异得分的天真估计值26在不改变其含义的情况下以多种方式编写相同的正确答案时,误导性高。

  相比之下,我们的语义熵旨在估计问题的自由形式答案的含义分布的熵,这是可能的,而不是对“代币”(单词或单词式)的分布,该分布在本地表示。这可以看作是一种随机种子变化的语义一致性检查27。图1中提供了我们方法的概述,以及补充表1中的一个有效示例。

  直观地,我们的方法是通过对每个问题进行抽样的几个可能的答案而起作用,并将它们聚类为具有相似含义的答案,我们根据同一群集中的答案是否相互双向互相双向确定。也就是说,如果句子的句子需要句子b是真实的,反之亦然,那么我们认为它们处于同一语义群中。我们使用通用LLM和自然语言推断(NLI)工具进行测量,专门针对检测需要进行,我们在补充表2和3和补充图1中显示了直接的评估。图1和补充图1。先前已显示出与事实的相关性,以衡量事实一致性29,并在交易中相关。粒度31。

  语义熵在没有以前的域知识的情况下,在一系列语言模型和领域中检测出自由形式文本生成的概论。我们的评估涵盖了琐事知识(Triviaqa32),一般知识(小队1.1;参考文献33),生命科学(BioASQ34)和开放域自然问题(NQ-OPEN35)中的问题回答。此外,语义熵在数学单词问题(SVAMP37)和传记生成数据集(FactualBio)中检测到了概论。

  我们对Triviaqa,Squad,Bioasq,NQ-Open和SVAMP的结果均无上下文评估,并涉及句子长度的答案(96±70个字符,平均值±S.D.),并使用Llama 2 Chat(7b,13b和70b and 70B和70B参数)38,38,Falcon Confersment(7B和40B和40B和40B)39和MIS MISTAL(7B)40(7B)40。在补充信息中,我们进一步考虑短期长度的答案。FactualBio(442±122个字符)的结果使用GPT-4(参考文献1)。在撰写本文时,GPT-4(参考文献1)并未暴露输出概率41或隐藏状态,尽管现在确实如此。结果,我们提出了对语义熵的估计器的离散近似,该估计器使我们能够运行实验,而无需访问输出概率,我们将其用于本文中的所有GPT-4结果,并且表现效果相似。

  与旨在“学习”如何从一组示例演示中检测混乱的方法相比,我们使用语义熵的插图检测对从以前看不见的域的用户输入更强大。我们的方法是无监督的,这意味着我们不需要标记的示例。相比之下,有监督的方法通过学习示例背后的模式来检测欺骗,假设未来的问题保留了这些模式。但是,在新情况下,这种假设通常是不真实的,或者与人类监督者无法识别的概括(比较参考文献24的图17)。作为强大的监督基线,我们将其与参考启发的嵌入回归方法进行比较。24训练逻辑回归分类器,以预测模型是否根据LLM的最终“嵌入”(隐藏状态)正确回答问题。我们还使用P(true)Method24,该方法研究LLM预测下一个令牌是“ True”的概率时,当很少弹奏的提示将主要答案与“头脑风暴”的替代方案进行比较时。

  套被为语言模型给出的错误答案做出了重大贡献。我们表明,语义熵可用于预测许多错误的模型答案,并通过拒绝回答模型不确定的那些问题来提高问题的准确性。与这两种用途相对应,我们评估了两个主要指标。首先,对于二进制事件,接收器操作特性(AUROC)曲线下的广泛使用的区域是给定答案不正确的。该度量捕获了精度和回忆,范围为0到1,其中1个代表完美的分类器,0.5代表非信息性分类器。我们还展示了一种新的措施,即“拒绝准确性”曲线(AURAC)下的区域。该研究的案例是使用插曲检测评分来拒绝回答最有可能引起欺诈的问题。排斥准确性是模型对其余问题的答案的准确性,而该曲线下的区域是许多阈值的汇总统计量(在补充材料中提供了代表性阈值精度)。AURAC捕获了如果使用语义熵来筛选出导致最高熵的问题,用户将体验到的准确性提高。

左文资讯声明:未经许可,不得转载。