迪士尼和普遍诉讼可能正在AI版权战争中杀死打击

2025-06-18 15:54来源:本站

新科学家。科学新闻和专家记者的长期阅读,涵盖了网站和杂志上的科学,技术,健康和环境的发展。ntext="Article" data-image-id="2479562" data-caption="Errors tend to crop up in AI-generated content" data-credit="Paul Taylor/Getty Images" />

AI生成的内容往往会出现错误

保罗·泰勒/盖蒂图像

在过去的几个月中,OpenAI和Google等科技公司的AI聊天机器人一直在获得所谓的推理升级 - 理想情况下,他们可以更好地给我们提供答案,但是最近的测试表明,他们有时会比以前的模型更糟。聊天机器人(称为“幻觉”)的错误从一开始就成为一个问题,而且很明显,我们可能永远不会摆脱它们。

幻觉是大语模型(LLMS)犯下的某些错误的一般术语,例如Openai的Chatgpt或Google的Gemini等电力系统。它是对他们有时将虚假信息视为真实的方式的描述。但是,它也可以指的是AI生成的答案,该答案实际上是准确的,但实际上与所要求的问题无关,或者未能以其他方式遵循指示。

ink="/article/2445475-how-to-avoid-being-fooled-by-ai-generated-misinformation/" data-id="2445475" data-image="false" data-companiontext="Read more" data-linktext="How to avoid being fooled by AI-generated misinformation" data-straplinetext="" data-template="standard">

一份评估其最新LLM的OpenAI技术报告显示,其O3和O4-Mini型号于4月发布,其幻觉速度明显高于该公司以前在2024年下旬发布的O1型号。相比之下,O1的幻觉率为16%。

问题不仅限于Openai。Vectara公司的一位受欢迎的排行榜评估了幻觉率,表明与开发人员的先前模型相比,幻觉率的DeepSeek-R1模型包括DeepSeek-R1模型的幻觉率上升。这种类型的模型会通过多个步骤来演示响应之前的推理线。

Openai说,推理过程不应该责备。OpenAI发言人说:“尽管我们正在积极努力降低O3和O4-Mini中看到的较高的幻觉速度,但幻觉并不是在推理模型中固有的更为普遍。”“我们将继续研究所有模型的幻觉,以提高准确性和可靠性。”

LLM的某些潜在应用可能会因幻觉而脱轨。一个始终说明虚假并需要事实核对的模型将不是有用的研究助理。引用虚构案件的律师助理机器人将使律师陷入困境。声称过时的政策仍然活跃的客户服务代理将为公司造成头痛。

但是,AI公司最初声称此问题会随着时间的流逝而清除。确实,在首次启动之后,对于每次更新,模型往往会减少幻觉。但是,最近版本的高幻觉速度使叙述变得复杂 - 无论推理是否有过错。

Vectara的排行榜基于其在汇总提供的文档时的事实一致性来对模型进行排名。Vectara的Forrest Sheng Bao说,这表明“幻觉率对于推理而言几乎相同”,至少对于Openai和Google的系统而言,Vorrest Sheng Bao在Vectara的Forrest和Google的系统中。Google没有提供其他评论。Bao说,出于排行榜的目的,特定的幻觉率数量不如每个模型的总体排名重要。

但是,此排名可能不是比较AI模型的最佳方法。

一方面,它将不同类型的幻觉混为一谈。Vectara团队指出,尽管DeepSeek-R1模型在14.3%的时间幻觉中幻觉,但其中大多数是“良性”:实际上得到逻辑推理或世界知识所支持的答案,但实际上并未在原始文本中出现,该机器人被要求总结。DeepSeek没有提供其他评论。

ink="/article/mg26034691-600-the-future-of-ai-the-5-possible-scenarios-from-utopia-to-extinction/" data-id="2407671" data-image="false" data-companiontext="Read more" data-linktext="The future of AI: The 5 possible scenarios, from utopia to extinction" data-straplinetext="" data-template="standard">

这种排名的另一个问题是,基于文本摘要的测试“没有说明[LLMS]用于其他任务时的不正确产出速率”,华盛顿大学的Emily Bender说。她说,排行榜的结果可能不是判断这项技术的最佳方法,因为LLMS并非专门用于总结文本的设计。

班德说,这些模型反复回答“什么可能是下一个单词”以提示提示的问题,因此他们不会以通常的意义上的意义来理解文本中有哪些信息可用。但是,许多科技公司在描述输出错误时仍然经常使用“幻觉”一词。

宾德说:“'幻觉'作为一个术语是双重问题的。”一方面,这表明不正确的输出是一种畸变,也许可以缓解的输出,而在剩下的时间内,系统都是接地,可靠且值得信赖的。另一方面,它起作用的机器可以使机器的功能 - 幻觉使某些东西不在那儿,并且没有任何模型。

普林斯顿大学的Arvind Narayanan说,这个问题超出了幻觉。模型有时还会犯其他错误,例如利用不可靠的来源或使用过时的信息。仅仅在AI上投入更多的培训数据和计算能力并不一定有帮助。

结果是,我们可能必须与容易出错的AI一起生活。Narayanan在一篇社交媒体帖子中说,在某些情况下,在事实检查AI答案时,最好仅将此类模型用于任务比自己进行研究更快。但最好的举动可能是完全避免依靠AI聊天机器人提供事实信息。

左文资讯声明:未经许可,不得转载。