Hotdry.

Article

基于准确率差异的急诊分诊决策边界分析:LLM与人类医生的量化对比

围绕67% vs 50-55%的准确率数据,量化分析LLM在不同患者acuity等级上的表现差异,给出可部署的自动化分诊阈值参数与监控要点。

2026-05-04ai-systems

2026 年 4 月发表于《Science》杂志的哈佛研究首次在真实急诊场景中量化对比了大型语言模型与人类医生的分诊诊断准确率。OpenAI o1 模型在早期分诊阶段达到 67% 的精确或接近精确诊断,而人类主治医师的准确率仅为 50% 至 55%。这一显著差距并非均匀分布于所有患者 acuity 等级,而是呈现明显的决策边界特征。理解这一边界,对于确定自动化分诊系统的部署参数、阈值设定以及人机协作模式具有直接指导意义。

研究数据与核心指标

该研究选取了波士顿贝斯以色列女执事医疗中心急诊科收治的 76 名真实患者作为测试对象。实验设计要求 AI 模型与两名人类主治医师各自独立阅读相同的电子健康记录数据 —— 包括生命体征、人口统计学信息以及护士书写的简短主诉记录。研究者定义的 “精确或非常接近” 诊断是指 AI 给出的诊断与最终临床确认诊断完全一致或仅在器官系统层面存在微小差异。实验结果表明,在信息最为受限的早期分诊阶段,o1 模型达成 67% 的诊断准确率,而两名人类医生的准确率分别为 55.3% 和 50.0%。当研究团队向模型补充更多临床信息后,AI 诊断准确率提升至 82%,人类医生的准确率则分布在 70% 至 79% 区间,但该差异在统计学上未达到显著水平。

研究还设置了一个独立的治疗方案评估任务。AI 与 46 名人类医生分别针对 5 个临床病例制定长期治疗计划,例如抗生素用药方案或临终关怀流程。AI 生成的方案得分达到 89%,显著优于人类医生使用传统检索工具所能达到的 34%。这一发现揭示了一个重要特征:LLM 在需要广泛检索和多因素整合的复杂决策任务中优势更为突出,而不仅仅是简单的诊断分类。

不同患者 Acuity 等级的表现差异

急诊分诊中使用的 ESI(Emergency Severity Index)量表将患者分为五个等级,第一级代表需要立即抢救的生命危重患者,第五级则为非紧急的轻症患者。现有研究数据表明,LLM 的优势主要集中在两个特定区间。

第一个优势区间是中等 acuity 患者,即 ESI 第三级和第四级。这类患者通常表现为需要额外检查才能明确诊断但暂无生命危险的状态。AI 在这类患者上的优势最为显著,原因在于人类医生在此类情况下容易受到典型诊断偏误的影响 —— 例如仅因患者年龄较大或主诉模糊而倾向于做出保守判断。LLM 则能够基于有限的文本信息进行更广泛的可能性搜索,不易陷入单一的思维定式。第二个优势区间是涉及罕见病或复杂合并症的病例。研究者特别指出一个典型案例:一名肺栓塞患者接受抗凝治疗后症状恶化,人类医生考虑抗凝失效,但 AI 注意到患者有红斑狼疮病史,进而推断可能是狼疮相关的肺部炎症而非药物失效,后续检查证实了 AI 的判断。这一案例说明,当患者的临床表现涉及多系统交互或存在不常见合并症时,LLM 的推理能力可以弥补人类医生的知识盲区。

相比之下,AI 在两类患者上的表现并不具备明显优势。第一类是极为危急的 ESI 第一级和第二级患者,此类患者的诊断往往一目了然,人类的临床直觉在此类情况下已经高度可靠,AI 的提升空间有限。第二类是信息极度不完整的病例 —— 例如患者无法清晰表达主诉或病历记录残缺不全时,LLM 的推理能力受到输入质量的根本制约。

自动化分诊的阈值参数与部署决策

基于上述分析,可以提炼出一套可操作的部署参数体系。核心原则是采用分层决策策略,将 AI 作为决策支持工具而非独立决策者,根据患者 acuity 等级动态调整 AI 输出的应用方式。

对于 ESI 第三级和第四级患者,当 AI 诊断置信度超过特定阈值时,建议将其作为主要参考意见而非仅作为第二意见。考虑到 o1 模型在中等复杂度病例上的 67% 原始准确率,建议将置信度阈值设定为 0.75,即当模型对某一诊断的置信度达到 75% 以上时,可作为分诊护士的优先推荐。同时,应设置双重确认机制:当 AI 与护士判断不一致时,必须由主治医师进行复核。

对于涉及多系统症状或已知罕见合并症的患者群体,AI 的建议权重应当提升。研究数据显示 AI 在复杂病例上的优势更为突出,因此建议在此类患者的分诊流程中嵌入 AI 辅助决策模块,即便 AI 的置信度未达 0.75 阈值,其输出的备选诊断仍应被纳入考量范围。

对于所有涉及 AI 辅助的病例,必须保留完整的决策追溯记录。记录内容包括 AI 输入的完整患者数据、模型输出的诊断列表及其置信度分数、以及最终采纳或拒绝 AI 建议的临床理由。这一追溯机制既是质量控制的基础,也是后续模型迭代优化的数据来源。

监控指标与持续优化

部署 AI 分诊系统后,需要建立一套监控指标体系以确保系统持续安全有效运行。首先应追踪的核心指标是分诊升级率 —— 即 AI 建议升级但护士未采纳的比例,以及 AI 建议降级但最终被临床验证为误判的比例。健康的系统应当呈现较低的升级拒绝率和更低的降级误判率。其次应监控 AI 在不同时间段的性能漂移,LLM 的推理能力可能随版本迭代或输入数据分布变化而波动,建议每季度进行一次回顾性准确率评估。

此外,需要特别关注 AI 对特定人群的偏差问题。现有研究尚未充分覆盖 AI 在不同年龄段、性别和语言背景患者上的表现差异,这是后续研究需要填补的关键空白,也是当前部署中需要审慎评估的风险因素。

人机协作模式的实施建议

研究作者 Arjun Manrai 和 Adam Rodman 均强调,研究发现并不意味着 AI 将取代医生,而是标志着医疗技术的一次深刻变革。两位研究者提出的 “三元照护模式”—— 医生、患者与 AI 系统协同 —— 为未来实践提供了框架。在该模式中,AI 不直接面对患者做出决策,而是作为医生的 “第二双眼睛”,帮助避免诊断盲区并提供更全面的鉴别诊断列表。

对于急诊科管理者而言,启动 AI 辅助分诊的推荐路径如下。首先选择信息结构化程度较高的科室场景进行试点,例如具备完整电子病历记录的病例。其次从小规模开始,初期仅将 AI 作为可选的第二意见工具,待团队熟悉系统行为后再逐步扩大应用范围。第三建立明确的人机权责边界,确保最终临床决策权始终由持证医师掌握。

资料来源

本文主要参考了 2026 年 4 月发表于《Science》杂志的哈佛研究,该研究在波士顿贝斯以色列女执事医疗中心开展,测试了 OpenAI o1 模型在急诊分诊诊断任务上的表现。相关报道亦见于《The Guardian》2026 年 4 月 30 日的新闻报道。

ai-systems