2025-06-24 07:08来源:本站
在这项研究中,我们介绍了AMIE,这是一种基于LLM的AI系统,针对具有诊断推理功能的临床对话进行了优化。我们将AMIE的咨询与PCP进行的使用随机的双盲跨界研究与OSCE风格的人类模拟患者进行了比较。值得注意的是,我们的研究并非旨在代表传统OSCE评估,远程或远程医疗咨询实践的临床公约,也不是临床医生通常使用文本和聊天消息与患者进行交流的方式。相反,我们的评估反映了人们当今与LLM互动的最常见方式,利用了AI系统进行远程诊断对话的潜在可扩展和熟悉的机制。在这种情况下,我们观察到,专门针对该任务优化的AI系统AMIE在沿多个临床上有意义的咨询质量轴上进行评估时,在模拟诊断对话上的PCP优于PCP。
与董事会认证的PCP相比,AMIE提供的DDX更准确,更完整,当时两者均由专业医生评估。先前的研究表明,在回顾性评估中,在特定的,狭窄的任务中,AI系统可能匹配或超过人类诊断性能。21,22。但是,这些情况通常涉及AI和医生解释相同的固定输入(例如,确定医疗图像中特定发现的存在)。我们的研究更具挑战性,因为它要求AI系统通过对话积极获取相关信息,而不是依靠人类努力所整理的临床信息23。因此,该系统的下游DDXS不仅取决于其诊断推理能力,还取决于通过自然对话和建立融洽关系在不确定性下收集的信息质量。
我们的结果表明,在模拟咨询过程中,AMIE在启发相关信息方面与PCP一样熟练,并且如果给出相同数量的获取信息,则比PCP更准确。这一发现证实了LLM可能能够产生更完整的DDX的其他工作,并且在具有挑战性的病例中与医生相同的临床信息22。尽管在这项研究中没有探讨,但AMIE的辅助表现代表了未来研究的有趣且重要的途径,尤其是考虑到专家监督对AI系统在安全至关重要环境(例如医学)中的现实重要性。
我们的研究利用了各种模拟患者,包括在加拿大和印度接受培训的演员,以及各种专业的情景。这使我们能够探索性能如何沿多个轴(专长)以及派生和制定场景的位置变化。尽管我们观察到PCP和AMIE在胃肠病学和内科情况方面的表现都比其他专业差(图3扩展数据),但该研究没有为不同的专业主题和位置进行比较,并且我们不能排除某些专业的情况可能更艰难的情况。
患者演员和专家评估者都评估了AMIE的性能高于与同理心和沟通技巧相关的指标的PCP。这些轴包括评估的大多数维度。这一总体发现与先前的研究一致,在该研究中,LLM的反应比临床医生对Reddit24上发布的健康问题的反应更具移情。但是,由于研究设计的差异,该研究的发现不能直接推广到我们的环境。具体而言,先前的工作并未涉及与同一患者进行多转弯对话的前瞻性模拟,对医师和AI系统的直接,随机比较。在这两种情况下,缺乏基于语音的和非语言的视觉交流可能对临床医生来说是不公平的劣势。
本研究中使用的基于文本的聊天界面引入了优势和缺点。当今的人们通常通过同步文本聊天界面与LLMS互动25,患者经常使用患者门户向其提供者发送消息。因此,我们选择了这种交互模式作为LLM的代表接口来执行多转交谈,从而相应地调整了虚拟OSCE框架。尽管这两者都仅限于同步文本聊天时,虽然这可以公平地比较LLMS和临床医生之间的诊断对话,但重要的是要承认我们的实验并未模仿实际临床实践中的诊断对话的预期质量(包括远程医疗氨基氨酸)。与同步文本聊天通信相比,医师可以通过电话或视频咨询更适合通过电话或视频咨询来进行历史诊断和诊断对话。26。取而代之的是,临床医生更常用的文本与患者以情节或异步需求进行沟通,例如处方补充或有关特定测试结果的沟通27。因此,医师可能更熟悉文本/SMS或电子邮件,而不是我们在本研究中使用的同步文本聊天媒体。在文本/SMS和电子邮件中,自然和善解人意风格的惯例和期望可能是不同的28。我们研究中的PCP可能尚未习惯于该环境,并且如果接受特定的培训计划(与AMIE的培训过程相似),则可能表现不同。参加该研究的临床医生在评估开始之前与我们的同步文本界面进行了两次预备试点会议,但这不是正式的培训计划,也不是为了优化临床医生的表现。未来的研究可以更彻底地探索这个问题 包括监视学习曲线的影响或探索性能是否会根据参与临床医生或模拟患者熟悉远程医疗的程度而变化。请注意,我们研究中的对话是时间限制的,以遵循典型的OSCE公约。尽管现实世界中的患者 - 医师咨询也经常在时间限制下进行,但我们研究中施加的特定时间限制可能并不能反映实际情况。
此外,我们关于移情交流的发现也可以部分归因于以下事实:AMIE的反应明显长于临床医生的反应(扩展数据图6),并且结构更大。这可能会向观察者表明,准备更多时间来准备反应,类似于已知的发现,患者满意度随着医生的时间而增加。
总的来说,我们的发现提出了许多进一步研究的途径,这些途径可能会利用人类 - 互补30,将临床医生在口头和非语言线索分析中的技能与LLMS的潜在优势结合在一起,以提出更丰富的对话反应,包括移情陈述,结构,口才,口才或更完整的DDXS。
模拟数据的使用使我们能够将培训迅速扩展到广泛的条件和患者环境,而搜索知识的注入则鼓励这些对话保持扎根和现实。尽管模拟的患者涵盖了广泛的疾病,但他们未能捕捉到各种潜在的患者背景,个性和动机。实际上,补充图3中显示的模拟实验表明,尽管AMIE在患者特征和行为的某些变化方面似乎很强,但与某些类型的患者(例如英国识字率低的患者)遇到了很大的困难。通过内部的自我播放程序,我们能够迭代地改善我们在微调中生成和使用的模拟对话。但是,这些改进受到我们表达在评论家指示中良好对话的能力,批评者产生有效反馈的能力以及艾米适应此类反馈的能力的限制。例如,在模拟环境中,我们强加了AMIE为患者提供了拟议的差异和测试/治疗计划,但是对于某些情况,这种终点可能是不现实的,尤其是在基于虚拟聊天的环境中。此限制也适用于实际环境。
此外,与评估成功定义明确的基于规则的约束环境中评估结果(例如,赢得或失去GO31的游戏)相比,为医学诊断对话的质量产生奖励信号的任务比评估结果更具挑战性。我们的生成合成小插图的过程考虑到了这一考虑。因为我们知道每个小插图的基础状况和相应的模拟对话推出,所以我们能够自动评估AMIE DDX预测的正确性,以此作为代理奖励信号。该奖励信号用于滤除“失败”的模拟对话,例如AMIE在此自我播放过程中未能产生准确的DDX预测的对话。除了DDX精度之外,自我播放的评论家还评估了其他素质,包括医生代理商在每种模拟对话中传达的同理心,专业和连贯性的水平。尽管这些后一种结构与诊断准确性相比更为主观,但它们是我们研究团队临床专家施加的领域特定启发式方法,以帮助将Amie的发展转向与既定的临床价值保持一致。我们还注意到,在这项工作中描述的初步分析中,我们的自动评估框架用于评估沿着这种标题的对话,与人类评分相吻合,并且与这些标准的特殊教育一致性相媲美。
请注意,我们评估集中的大多数场景都假定了潜在的疾病状态,而只有一个小子集则假设没有疾病。这是对这项工作的重要局限性,因为它不能反映主要的初级保健流行病学现实,在这些工作中,评估患者的大多数工作涉及排除疾病,而不是排除疾病。我们鼓励未来的工作探索各种疾病分布与非疾病状态的评估。
因此,即使在我们解决的疾病和专业的分布中,我们的发现也应受到谦卑和谨慎的解释。需要进一步的研究来检查相同疾病的各种表现,以及探索在不同患者需求,偏好,行为和情况下评估历史记录和临床对话的替代方法。
本文提出的评估协议在捕获与公平和偏见有关的潜在问题的能力方面受到限制,这仍然是我们将在随后的系统评估中解决的重要开放问题。LLMS32中综合检测综合框架开发的最新进展提出了建立这种方法的一个有希望的起点。应当指出的是,由于医疗领域的复杂性,对话的互动信息收集性质和结果驱动的环境,医疗诊断对话是一种特别具有挑战性的用例,并且在不正确的诊断或不正确的医疗建议的情况下可能会造成相关危害。然而,如果要克服域中的LLM而不是传播医疗保健中的不平等现象,那么解决这些问题是一个重要的进一步研究领域。例如,先前的研究发现,医生平均与患者的沟通方式不同,具体取决于患者的种族,导致黑人患者接受的沟通不那么以患者为中心,阳性影响较低33。其他研究发现,根据性别34和患者的健康素养水平,医师的沟通方式和对话长度有所不同。有效的跨文化沟通技巧至关重要36。因此,存在不可忽略的风险,即在AI对话系统中可以复制或放大这种历史对话偏见,但与此同时,也有机会努力设计更具包容性并更具个性化的对话性系统,并满足个人患者的需求。
为了帮助开发必要的公平,偏见和公平框架,使用参与式方法在广泛的患者人口统计以及临床和健康公平领域专家中征求代表性观点很重要。这种评估框架应通过广泛的模型红色团队和对抗性方法进行补充,以识别剩余的差距和故障模式。在这种情况下,红色团队LLM的最新进展可能很有用,在这种情况下,人类评估者或其他AI系统(即红色团队)模拟了对手在这些LLM中识别漏洞和安全差距的作用。这些实践不仅应告知对最终模型的评估,而且还应为其开发和迭代性改进提供信息。模型开发应遵循既定的数据和模型报告实践,并为培训数据和相关决策过程提供透明度38,39,40。在我们的研究中为AMIE培训数据做出贡献的对话研究数据集被取消识别,从而降低了社会经济因素,患者人口统计以及有关临床环境和位置的信息。为了减轻我们的合成小插曲会偏向某些人口组的风险,我们利用网络搜索来检索一系列人口统计学和与每种情况相关的相关症状。我们将这些用作Vignette生成的提示模板的输入,指示该模型在此范围内产生多个不同的小插图。尽管该机制的设计是为了减轻偏见放大风险的目的,但对艾米(Amie)等对话诊断模型的全面评估是公平,公平和偏见,这是未来工作的重要范围。
还需要进一步的工作,以确保Medical LLM在多语言环境中的鲁棒性41,尤其是其在少数语言中的表现42。各种各样的文化43,语言,地方,身份和局部医学需求使得生成先验静态而全面的公平基准的任务实际上是不可行的。偏见的测量和缓解措施必须超越传统的狭窄焦点,而这些狭窄的焦点是无法扩展全球的特定轴。44。对于基于LLM的评估者,提出了一种潜在的解决方案,用于在没有系统的基准的语言中进行初步评估,尽管先前的研究发现这些自动评估框架有偏见,强调了对本人英语人士评估进行校准的需求,并使用它们使用CAITUTION45。
这项研究证明了LLM在诊断对话的背景下在医疗保健中使用的潜力。从本研究中评估过的LLM研究原型过渡到可以由医疗保健提供者,管理人员和人员使用的安全和强大的工具,将需要大量额外的研究,以确保该技术的安全性,可靠性,功效和隐私。需要仔细考虑这项技术的道德部署,包括跨不同临床环境的严格质量评估以及对可靠的不确定性估计方法的研究46,这将在需要时延迟到人类的临床专家。需要这些和其他护栏来减轻对LLM技术的过度依赖,并采取其他具体措施,以关注对未来用例的道德和监管要求,以及在循环中存在合格的医生以维护任何模型输出。正如我们在先前的工作中所强调的那样,还需要进行其他研究以评估偏见和安全漏洞可能出现的偏见和安全漏洞。鉴于临床知识的持续发展,开发LLM使用最新临床信息的方法也很重要。