2026 年 4 月,AI 数据标注公司 Mercor 遭遇重大安全事件,超过 4TB 的语音样本数据被非法获取,涉及约 4 万名 AI 承包商的身份验证视频、个人身份信息及生物识别数据。此次泄露通过 LiteLLM 供应链漏洞被攻击者利用,成为迄今为止规模最大的 AI 训练数据安全事件之一。这一事件不仅暴露了 AI 数据供应链的脆弱性,更为语音生物识别数据的工程化保护敲响了警钟。
供应链入口:LiteLLM 漏洞的连锁效应
Mercor 数据泄露的起点并非其自身系统的直接入侵,而是通过开源库 LiteLLM 的供应链漏洞实现渗透。攻击者利用该库的认证缺陷获取了 Mercor 内部的 API 凭证和存储访问权限,进而批量下载存储在云端的语音样本与视频数据。这一攻击路径揭示了 AI 企业面临的共性风险:当业务高度依赖第三方开源组件时,供应链安全已成为不可忽视的攻击面。LiteLLM 作为广泛使用的 LLM 调用中间件,其安全缺陷的影响范围远超单一企业。
从工程实践角度看,供应链安全的核心在于最小化信任边界。企业应当建立第三方依赖的版本锁定与签名验证机制,使用软件物料清单(SBOM)追踪所有引入的开源库版本,并在 CI/CD 流程中集成自动化安全扫描。对于涉及敏感数据的开源组件,更应实施额外的安全审计与隔离策略,确保即使依赖项被攻破,攻击者也无法直接访问核心数据资产。
生物识别数据的特殊风险:语音样本的多维价值
此次泄露的 4TB 数据并非普通文本或代码,而是包含承包商语音样本、身份验证视频等生物识别信息。与传统身份信息不同,语音特征具有不可变更性 —— 一旦泄露,攻击者即可利用深度伪造技术生成目标人物的语音内容,用于电话诈骗、身份冒用或企业欺诈。安全研究人员已明确指出,此类数据的潜在滥用场景包括利用语音样本训练声纹克隆模型,进而绕过基于语音的身份验证系统。
从数据生命周期管理的角度,生物识别数据需要区分存储与处理的不同阶段。上述 Oravys 等语音智能平台的工程实践提供了参考:采用 AES-256 加密存储、TLS 1.3 传输加密、处理完成后立即删除原始音频数据,实现零保留策略。对于数据标注场景,应考虑将原始语音转换为脱敏特征向量后再交付给标注人员,从根本上减少敏感原始数据的暴露范围。标注完成后,应建立明确的数据销毁验证机制,确保临时存储环节不形成长期风险敞口。
工程化保护方案:分层防御与数据最小化
针对 AI 数据供应链中的生物识别数据保护,建议采用以下分层工程实践。第一层是数据收集阶段的原则限制:仅收集任务必需的最低语音时长,采用动态脱敏处理后再存储,例如将完整语音转换为梅尔频谱图或 MFCC 特征,保留标注所需的声学信息但移除可直接用于声纹克隆的原始时域信号。第二层是存储与访问控制,对生物识别数据实施物理或逻辑隔离,采用基于属性的访问控制(ABAC)实现细粒度权限管理,所有数据访问操作记录不可篡改的审计日志。
第三层是运行时保护:在数据处理节点实施安全 enclave 技术,如 Intel SGX 或 AMD SEV,确保即使云服务商被攻破,敏感数据仍受硬件级保护。第四层是事件响应准备:建立数据泄露的快速检测与响应流程,配置异常数据访问的模式识别告警,制定包括承包商通知、监管报告与身份保护服务在内的完整预案。NIST 隐私框架与欧盟 GDPR 的数据保护要求均强调数据最小化与目的限制原则,这些合规要求与技术方案结合,方能在供应链复杂的环境中构建有效的防护体系。
面向未来的数据治理:AI 企业的必修课
Mercor 事件标志着 AI 数据供应链安全进入新的风险阶段。随着大模型训练对多模态数据需求的增长,语音、视频、图像等生物识别数据的标注需求持续扩大,承包商群体已成为 AI 产业链的关键环节,但往往也是安全投入的薄弱地带。企业需要将承包商数据安全纳入整体安全战略,建立涵盖技术控制、合同约束与持续审计的完整治理框架。
从行业层面看,此次事件推动了对 AI 数据供应链安全评估标准的制定需求。类似于 SOC 2 对云服务商的合规要求,针对 AI 数据处理企业的安全评估框架需要明确生物识别数据的保护等级、供应链安全要求与泄露报告义务。只有当安全能力成为 AI 数据服务商的核心竞争力而非成本负担时,整个行业的数据保护水平才能得到实质性提升。
资料来源:Perplexity AI Magazine, HackRead