安大略省审计长办公室于 2026 年 5 月 12 日发布《政府在人工智能系统使用情况审计报告》,对省级政府预认证的 20 家人工智能医疗抄写(AI Scribe)厂商进行了系统性测试。测试模拟了两组标准化的医患对话场景,用以评估 AI 抄写工具生成临床文档的准确性与完整性。测试结果揭示了当前医疗 AI 部署中一个被长期忽视的结构性缺陷:评估体系对准确度的忽视与采购流程对质量控制的系统性失位。报告的核心发现是,这 20 家已获省级推荐的 AI 抄写工具均在不同程度上存在信息错误、虚构内容或遗漏关键临床细节的问题,其严重程度足以对患者的诊疗安全构成实质性威胁。
审计数据揭示的系统性失败
测试结果以量化方式呈现了问题的广度。在 20 家接受测试的 AI 抄写厂商中,全部出现了准确性问题或完整性问题。其中 9 家厂商在测试中生成了虚构的患者信息,包括不存在的化验申请单和治疗转诊建议;12 家厂商错误地记录了处方药物信息,包括药名拼写错误和剂量数据偏差;17 家厂商遗漏了模拟对话中讨论的关键心理健康信息,包括抑郁倾向、焦虑症状和既往心理治疗史等敏感内容。综合各项评分维度,20 家厂商在 “生成医疗笔记准确度” 这一核心指标上的平均得分仅为 12 分(满分 20 分)。这一数字不仅低于及格线,更暴露了当前医疗 AI 在临床信息处理能力上的根本性不足。
值得关注的是,上述测试仅基于两套标准化的模拟医患对话场景,并非真实临床环境中的复杂语音、多人对话或医疗设备背景噪音。这意味着在实际使用场景中,错误率很可能高于审计测试所呈现的数据。此外,审计报告列举了若干具体错误案例:AI 抄写工具凭空生成血液化验转诊单,将实际讨论的健康话题记录为需要接受完全心脏切除手术的转诊,将真实开具的处方药物替换为完全不相关的药品名称。这些错误若未被医生在诊疗过程中及时发现并纠正,将直接导致后续医疗决策出现偏差,严重时可能危及患者生命安全。
评估体系权重失配:准确度仅占总分 4%
审计报告最引人关注的发现并非 AI 抄写工具本身的准确度不足,而是导致这些工具能够通过省级预认证的制度性原因。在 Supply Ontario 用于评估 AI 抄写厂商的评分体系中,“生成医疗笔记准确度” 这一核心质量指标在总分中的权重仅为约 4%。与之形成鲜明对比的是,“在安大略省的本土存在度” 指标占据总分权重的 30%。这意味着即便一家 AI 抄写工具在准确度指标上获得零分,只要其满足本土化运营要求,仍有可能在总分上超过在准确度上表现更好但本土化程度较低的竞争对手。
这种权重配置直接导致了一个违背常理的结果:通过省级预认证的 AI 抄写工具中,部分在准确度维度上表现极差的厂商依然获得了推荐资格。审计报告指出,采购评估流程对 AI 系统的质量验证缺乏系统性设计,包括未要求厂商提供独立的第三方测试报告、未设定最低准确度阈值作为入围门槛、未建立持续性能监控机制。审计长在报告中以克制的措辞指出:“重要的是,AI 抄写系统需要经过充分测试以确保其生成的笔记质量,并将不准确信息的风险降至最低。” 这一措辞背后是对当前采购流程的明确批评。
审计报告还揭示了审批流程中信息透明度不足的问题。Ontario Health 在推进 AI 抄写工具部署时,部分工具在尚未完成全面安全评估的情况下即被批准供医疗从业者使用。采购决策依赖于供应商提供的自述材料和有限的概念验证测试,而非基于真实临床场景的独立验证。这种评估模式与医疗设备审批中所要求的严格临床试验标准形成了显著差距。
临床风险的三重维度
从患者安全角度分析,AI 抄写工具错误所引发的临床风险可分为三个主要维度。第一层是直接诊疗决策风险:错误的药物记录可能导致后续接诊医生开出与当前治疗方案相冲突的处方,不准确的诊断描述可能引导检查方向偏离真正需要关注的健康问题,虚构的转诊建议可能导致患者接受不必要的医疗程序或延误必要的治疗。审计报告中提及的 “心脏切除转诊” 案例虽然极端,但恰恰说明了当 AI 生成内容完全脱离实际对话内容时的极端危险性。
第二层风险涉及心理健康等敏感信息的遗漏。审计数据显示,在 17 家遗漏关键心理健康细节的 AI 抄写工具中,遗漏的信息包括抑郁症状的自述、焦虑发作的频率和诱因、既往自杀意念的提及以及心理治疗用药方案调整等核心临床信息。心理健康记录的缺失在医疗连续性护理中影响尤为深远:后续接诊的其他医生无法从病历中获取患者的心理状态全貌,可能在用药选择、手术评估或出院计划制定中忽视对患者心理状态的考量。
第三层风险在于文档审核链条的断裂。审计报告指出,当前部署流程中未强制要求医生在将 AI 生成的笔记提交至患者健康档案前进行逐项核实。报告建议信息技术部门应建立强制审核机制,要求医生在提交 AI 生成的笔记前明确确认其已完成审查并对内容准确性负责。然而现实情况是,许多医疗机构的电子健康档案系统允许医生一键批准 AI 生成的笔记,缺乏对关键信息项的强制校对流程。
可落地的质控参数与部署框架
基于审计报告的发现与医疗 AI 部署的最佳实践,可以提炼出一套可落地的质量控制参数体系。首要参数是准确度准入门槛:AI 抄写工具在标准化临床对话测试中的准确度评分不得低于 15 分(满分 20 分),且在药物名称、诊断描述和转诊建议三项子维度上均不得低于及格线。在幻觉率控制方面,AI 系统在每 100 次标准对话测试中产生虚构信息(幻觉)的事件应控制在 3 次以内。虚构信息包括凭空生成的化验项目、治疗方案、转诊建议或药物名称。
文档完整性指标同样关键。AI 抄写工具在模拟对话测试中对核心临床信息的捕获率应达到 90% 以上,其中心理健康相关内容因其对后续医疗决策的高度敏感性,捕获率标准应单独设定不低于 85%。对于涉及过敏史、当前用药清单、既往手术史等高风险信息项,遗漏率应控制在 2% 以下。
采购评估权重调整是制度层面的核心改进方向。建议将 “生成医疗笔记准确度” 指标在 AI 医疗抄写工具采购评分体系中的权重提升至不低于 20%,并增设 “幻觉事件率” 和 “关键信息遗漏率” 作为独立评分维度。同时,增设最低准入阈值,要求准确度和完整性指标达到规定分数后方可参与综合评分。为防止本土化权重过高导致的评价偏差,建议将 “在安大略省 / 本地区的本土存在度” 权重降至不超过 15%,并将这部分分值重新分配至临床安全与合规维度。
持续监控与审计机制应嵌入日常使用流程。采购合同中应明确要求供应商提供季度准确度报告,涵盖幻觉事件统计、用户反馈中的信息错误投诉数据以及针对新版本模型的回归测试结果。医疗机构应建立月度抽检制度,从每月生成的 AI 笔记中随机抽取不少于 50 份,由主治医生进行准确性和完整性复核,并将复核结果纳入供应商绩效评估。对于复核中发现的系统性错误模式,应触发供应商整改流程,整改期间相应工具的临床使用范围应受限。
责任边界与治理框架
审计报告隐含但未明确展开的一个核心问题是:当 AI 生成的错误医疗笔记导致患者受到伤害时,责任应如何在医生、医疗机构、AI 供应商和采购决策部门之间分配。在当前的法律和监管框架下,签署并提交患者健康记录的是执业医生,因此医生原则上对文档内容的准确性承担法律责任。但 AI 抄写工具的介入改变了这一责任链条的清晰度 —— 如果医生信赖 AI 生成的内容而未进行充分核对,是否应被视为已尽到合理注意义务?
建议建立分层责任框架。AI 供应商应对其产品的准确度和幻觉率承担产品质量责任,包括在产品说明书和合同中明确披露已知的准确度限制和已知的高风险场景(如涉及心理健康讨论、多人同时对话、方言或口音较重的语音输入等)。医疗机构应承担采购决策和部署流程的合规责任,包括在引入 AI 抄写工具前完成独立的准确度验证测试、建立强制审核流程并为医生提供充分培训。执业医生应对最终提交至患者档案的文档内容承担主要临床责任,但这一责任的前提是医疗机构提供了充分的工具使用培训和明确的审核要求。
监管层面,卫生行政机构应将 AI 医疗抄写工具纳入与医疗设备类似的监管范畴,建立预上市审批与上市后监测的双轨监管体系。这包括要求供应商在产品上市前提交基于标准化临床对话数据集的第三方准确度测试报告,建立不良事件强制报告机制,以及定期公开发布各供应商产品的准确度追踪数据。
结论
安大略省审计报告揭示的核心教训并非 AI 抄写工具本身不可用于临床环境,而是当前从采购评估到日常使用的全流程质量控制框架存在系统性缺陷。准确度在评估体系中仅占 4% 的权重这一事实,生动地说明了当效率指标和本土化考量超越安全质量成为采购决策的主导因素时,患者安全将如何被系统性忽视。审计报告提出的改善建议 —— 强制医生审核、AI 系统独立测试、持续性能监控 —— 均属于可操作的范畴,关键在于执行层面的优先级调整。医疗 AI 的价值实现有赖于一套以准确度和患者安全为核心、不因效率或政治考量而妥协的治理框架的建立。
资料来源:安大略省审计长办公室《政府在人工智能系统使用情况审计报告》(2026 年 5 月 12 日),Ars Technica 相关报道(2026 年 5 月 14 日)。
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。