Hotdry.
ai-systems

Waymo 第六代自动驾驶系统:从有限区域到全天候自主运营的工程冗余挑战

剖析 Waymo 第六代自动驾驶系统为实现全天候自主运营,在传感器冗余、决策冗余、远程监控与接管架构上面临的核心工程挑战与可落地参数。

2024 年,Waymo 正式发布了其第六代自动驾驶系统(Waymo Driver Gen 6),这不仅仅是一次硬件迭代,更标志着其战略重心从在有限地理围栏(Geofence)内进行技术示范,转向追求真正全天候、大规模自主运营的关键转折。这一转变的核心驱动力,并非仅仅是增加更多传感器或提升算力,而是构建一套深度的、系统性的工程冗余体系,以应对从亚利桑那州的晴朗沙漠到旧金山湾区的浓雾、乃至未来北方城市冬季冰雪等极端复杂环境。本文将聚焦于实现这一目标所必须攻克的三重工程挑战:传感器冗余架构、决策冗余系统,以及远程监控与接管(Teleoperation)架构的规模化演进,并试图给出可落地的工程参数与监控要点。

一、传感器冗余:超越堆料,构建全天候感知的 “降级策略”

在有限区域内运营,自动驾驶系统可以依赖近乎理想的感知条件。然而,全天候运营意味着系统必须可靠地处理雨、雪、雾、强光等导致传感器性能严重衰减的场景。据 Waymo 官方博客介绍,第六代系统升级了其传感器套件,包括更高分辨率的激光雷达、更多数量的摄像头(据信引入了专门应对恶劣天气的偏振摄像头)以及成像雷达。但这背后的工程逻辑远非简单的 “数量增加”。

其核心挑战在于设计一套感知冗余架构,使得在任一传感器或传感器类型因天气失效时,系统仍能维持可用的环境模型。这涉及到几个关键工程决策:

  1. 异构传感器融合与交叉验证:激光雷达提供精确的 3D 点云但在大雨中噪声激增;摄像头提供丰富的纹理信息但在低光照或雾天失效;成像雷达能穿透一定程度的雨雾但分辨率较低。Gen 6 的工程重点之一,是构建一个实时评估各传感器数据置信度的融合框架。例如,当摄像头因水渍模糊时,系统应自动降低其权重,更多依赖雷达数据,并触发清洁程序。

  2. 物理布局的冗余设计:为确保 360 度无死角并应对局部遮挡或污染,关键感知区域(如车辆四角、正前方)可能部署了来自不同原理传感器的重叠覆盖。这意味着即使一个激光雷达单元被泥浆覆盖,相邻的摄像头和另一个角度的激光雷达仍能协同提供该区域的感知。

  3. 可落地的 “降级模式” 参数:工程上必须明确定义系统从 “全功能模式” 降级到 “受限模式” 的阈值。例如,当视觉系统整体置信度低于某个阈值(如 0.7),且雷达数据一致性高于另一个阈值时,系统应切换至以雷达为主的导航模式,同时最高车速、跟车距离等参数需要同步调整。这种模式切换的逻辑、阈值和对应的车辆行为策略,是确保安全退出复杂场景的关键。

二、决策冗余:从双硬件到 “最小可运行决策单元”

感知冗余解决了 “看” 的问题,而决策冗余则要确保 “思考” 的连续性与安全性。全天候运营中,恶劣环境不仅影响感知,也可能对车载计算平台造成压力(如高温、高湿)。Waymo Gen 6 被广泛认为采用了双计算单元的设计,实现硬件级的故障冗余。但真正的挑战在于软件和算法层面如何利用这种冗余。

  1. 故障切换的透明性与平滑性:主计算单元发生故障时,备用单元需要在极短时间内(目标是毫秒级)接管全部决策流程。这要求两套系统保持状态同步,包括当前路径规划、预测的交通参与者轨迹、系统模式等。任何切换过程中的状态丢失或决策跳跃,都可能导致车辆急刹或做出危险动作。工程上,这需要设计精密的中间件和状态管理协议。

  2. 算法层面的多样性冗余:硬件冗余是基础,但更高级的冗余是决策算法的多样性。例如,主系统采用基于深度学习的复杂规划模型,而备用系统可以运行一个基于规则和优化的轻量级、高确定性的 “安全核心” 规划器。当主系统因遇到罕见场景(如道路被冰雪部分覆盖,车道线完全消失)而输出高不确定性或异常决策时,系统可以自动或经远程确认后,切换至更保守但可验证的备用算法。这要求软件架构高度模块化,允许热插拔不同的决策模块。

  3. 可监控的决策健康度指标:为了预警潜在的决策系统故障,需要定义一系列软件健康度指标。例如:规划器决策的置信度熵、预测模块对于同一场景的多轨迹预测分歧度、系统自检心跳的延迟等。当这些指标超出正常范围时,即使硬件未报错,系统也应触发诊断或请求远程协助,防患于未然。

三、远程监控与接管:从安全网到规模化运营的瓶颈

无论冗余设计多么完善,一个可随时介入的远程监控与接管系统仍是自动驾驶大规模商用的最终安全网。Waymo 的运营中心(Fleet Response)架构一直在演进。早期的模式接近于 “一对一” 监护,而随着技术成熟,目标转向 “一对多” 的高效监控,仅在车辆发出 “协助请求”(Request for Assistance, RFA)时介入。然而,迈向全天候运营将极大考验这一架构的极限。

  1. “困惑” 检测与精准求助:系统的首要能力是准确判断自身何时 “困惑”(即感知或决策不确定性超过安全阈值)。在雨雪天气中,误报(其实能处理却求助)和漏报(其实不能处理却硬闯)的风险都会增加。工程上需要精细调优求助触发算法,可能基于多模态不确定性估计的融合结果。例如,结合感知置信度、规划路径的可行性评分以及历史类似场景的处理成功率来综合决策。

  2. 接管延迟的 SLA 与通信冗余:从车辆发出求助信号,到远程操作员看清场景、做出判断、发出指令,再到车辆执行,整个回路的延迟必须有一个严格的服务水平协议(SLA)。在复杂天气下,蜂窝网络质量可能波动。因此,车辆到运营中心的通信链路本身也需要冗余,可能同时使用多个运营商网络,并在延迟超过阈值(如 2 秒)时自动执行最小风险策略(如靠边停车)。

  3. 规模化下的挑战与参数化运营:当车队从几百辆扩展到成千上万辆,且运营范围覆盖多种气候区时,如何保证任何时候都有足够的远程操作员应对可能的求助高峰?这需要强大的预测和调度系统。可落地的工程参数包括:

    • 最大并发求助比:一个操作员同时处理求助车辆的上限(例如 1:3)。
    • 平均响应时间目标:从求助到操作员接管的平均时间(例如 95% 的请求在 10 秒内)。
    • 场景分类与优先级:系统应能将求助场景初步分类(如 “车道线模糊”、“静止障碍物识别不清”、“交通灯状态不确定”),并分配优先级,让操作员优先处理最紧急的情况。
    • 操作员辅助决策界面:界面不能只是传输视频流,而应叠加系统感知结果(如 bounding boxes)、不确定性热力图、系统建议的几种应对方案,让操作员能快速理解状况并批准最优解,将接管时间从分钟级压缩到秒级。

结论

Waymo 第六代自动驾驶系统向全天候运营的进军,是一场对工程冗余体系的深度压力测试。它揭示了一个核心洞见:真正的可靠性并非来自于追求在理想条件下的完美表现,而是来自于系统在部分组件失效或性能降级时,依然能安全、可控运行的能力。这要求从传感器硬件布局、数据融合算法、计算平台架构,到软件模块设计、状态管理、远程人机交互等全链条进行以 “故障容忍” 和 “优雅降级” 为目标的重新设计。

对于行业而言,Waymo Gen 6 所探索的工程路径 —— 特别是关于感知降级模式阈值、决策健康度指标、远程接管 SLA 等具体参数的实践 —— 将为整个自动驾驶领域建立可量化的安全与可靠性基准。最终,能否将这些冗余设计从高昂的原型验证转化为可规模化部署、可持续运营的工程现实,将是 Waymo 及其竞争者能否真正解锁自动驾驶下一个时代的关键。


资料来源说明:本文的分析基于公开的 Waymo 第六代自动驾驶系统技术发布信息、自动驾驶冗余系统设计的一般工程原则,以及对全天候运营挑战的技术推演。主要参考了 Waymo 官方技术博客关于系统可靠性与冗余设计的阐述,以及行业内对传感器融合与故障安全架构的工程讨论。

查看归档