Hotdry.

Article

Siri AI 混合推理架构解析:设备端大模型与 Gemini 云端的隐私优先编排

WWDC 2026 发布的 Siri AI 采用三层混合架构,将 70% 查询留在设备端,25% 路由至 Apple PCC,仅 5% 触及 Gemini 云端,实现隐私与能力的动态平衡。

2026-06-09ai-systems

WWDC 2026 上,Apple 终于交出了 Siri 的 AI 重构答卷。不同于完全依赖云端大模型的路线,Apple 选择与 Google 达成多年战略合作,以每年 10 亿美元的授权费用接入 Gemini 模型家族,同时构建了一套三层混合推理架构。这套架构的核心命题是:如何在保护用户隐私的前提下,获得足以支撑复杂推理的 AI 能力。

三层架构的分工与路由机制

Siri AI 的查询路由由设备端的分类器模型决定,该分类器评估查询复杂度、上下文需求和实时数据依赖,将请求分配到三个层级之一。

第一层:设备端 Apple Foundation Models,处理约 70% 的查询。这些模型运行在 Apple Neural Engine 上,基于从 Gemini 蒸馏而来的学生模型,负责定时器、提醒、应用启动、简单问答和屏幕内容感知等任务。关键特征是零数据出境,端到端延迟控制在 200 毫秒以内。

第二层:Apple Private Cloud Compute (PCC),承接约 25% 的查询。PCC 运行在 Apple Silicon 服务器上,采用经过加固的操作系统,执行无状态的临时计算。用户个人信息(PII)在到达 PCC 前已被剥离,处理完成后内存立即清零,无持久化存储,无日志保留。这一层处理跨应用推理、多轮对话和需要更大上下文窗口的任务。

第三层:Google Gemini 云端,仅约 5% 的最复杂查询会触及这一层。通过 PCC 的隐私代理,PII 被进一步匿名化后路由至 Google 的 1.2 万亿参数 Gemini 模型。Google 在状态隔离的计算容器中处理请求,不保留查询数据。

隐私优先的技术实现

PCC 的设计目标是实现技术上可强制执行的隐私保证,即即使面对法律传票或内部威胁,系统也无法泄露用户数据。

硬件级隔离:PCC 节点采用与 iPhone 和 Mac 相同的 Secure Enclave 架构,提供硬件级加密隔离。即使 PCC 操作系统被完全攻破,也无法解密先前处理的查询。

无状态临时计算:每个查询在隔离内存空间中处理,响应生成后立即清零。内核层面阻止存储 API 调用,从架构上消除数据持久化的可能。

公开可验证性:Apple 开源了 PCC 的关键组件,并提供虚拟研究环境。每个 PCC 节点发布其软件配置的加密证明,iOS 客户端在路由查询前验证该证明,确保节点运行的是经过审计的软件版本。

模型蒸馏与能力演进

Apple 的授权协议包含将 Gemini 能力蒸馏到设备端模型的权利。知识蒸馏通过让小型学生模型学习大型教师模型的输出概率分布(而非仅复制最终答案),使学生继承教师的推理模式。

这一机制具有战略意义:每一次 Tier-3 的 Gemini 查询都产生训练信号,用于改进设备端和 PCC 层模型。随着时间推移,需要 Google 服务器的查询比例将逐渐下降。当前蒸馏的重点方向是长上下文摘要和跨文档推理,这些任务目前由 PCC 的较大模型变体处理。

开发者的集成考量

对于希望接入 Siri AI 的开发者,App Intents 框架成为关键集成点。Siri 的规划组件(由 Gemini 支持)可以链式调用多个 App Intents 来完成用户的高级目标。

隐私敏感应用(健康、金融、法律)需要特别注意:只有 App Intents 中声明的参数才会到达云端处理层。设计意图参数时应遵循最小必要披露原则,优先使用窄范围的参数类型(如 clientName: String)而非完整对象(如包含邮箱和支付历史的 Client 对象)。

架构的局限与争议

尽管 Apple 强调 PCC 的隐私保障,2026 年 2 月 Google 公开声明部分 Siri 查询会路由至 Google 服务器,这与 Apple 纯 PCC 的宣传存在张力。Apple 随后澄清,仅当查询复杂度超过 PCC 独立处理能力时,才会通过隐私代理落入 Google 基础设施。

更深层的结构性问题是:路由决策由设备端分类器控制,用户无法审查具体的路由路径。Apple 的透明度日志覆盖 PCC 节点软件,但不覆盖单个查询的路由决策。安全研究人员呼吁增加按查询的路由透明度,WWDC 2026 可能会通过设置中的增强隐私报告来回应这一诉求。

可落地的工程参数清单

基于上述架构,开发者在设计 AI 集成时可参考以下参数:

层级 延迟目标 隐私边界 适用场景
设备端 <200ms 零数据出境 即时响应、屏幕感知、简单指令
PCC <1s PII 剥离、无状态 跨应用推理、多轮对话、中等上下文
Gemini 可变 匿名化代理 长文档分析、实时知识、复杂规划

隐私敏感应用的设计原则

  1. App Intents 参数最小化:仅声明必要字段
  2. 敏感操作设计 PCC-only 变体(如 WWDC 提供路由提示 API)
  3. 监控蒸馏路线图:优先支持设备端能力的任务类型
  4. 遗留 SiriKit 迁移:在 2 年弃用窗口期内完成向 App Intents 的迁移

结语

Siri AI 的三层架构代表了一种务实的工程妥协:既不放弃云端大模型的能力,也不牺牲 Apple 的隐私承诺。通过将 95% 的查询留在 Apple 控制的基础设施内,仅在必要时触及 Google 的 Gemini,Apple 实现了隐私与能力的动态平衡。对于行业而言,这一架构提供了一个可复制的模板:如何通过分层设计、模型蒸馏和可验证计算,在端侧 AI 与云端大模型之间找到最优解。


资料来源

  • TechBytes: "Apple Siri + Gemini on Private Cloud Compute: A Deep Dive into the 3-Tier Architecture" (2026-03-28)
  • The Next Web: "Apple finally ships its AI do-over: Siri AI, a standalone app, and a three-tier privacy stack" (2026-06-08)

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com