Hotdry.
ai-systems

Waymo 机器人出租车感知系统盲区:遮挡场景下的时序融合失效分析

从 Santa Monica 学校区域事故切入,剖析多模态感知系统在遮挡场景下的时序对齐边界,给出可落地的工程监控参数与 ODD 设计建议。

当 Waymo 第五代系统在学校区域的人车混行场景中与儿童发生接触时,问题的本质并非传感器 "看不见",而是多模态数据在时序对齐窗口内的融合计算未能为制动决策争取到足够的提前量。这一工程缺陷揭示了当前 robotaxi 感知系统在复杂动态场景下的边界条件,值得从系统架构层面深入剖析。

感知系统的时序融合边界

Waymo 在其第五代架构中采用了 "Think Fast / Think Slow" 的双系统设计:传感器融合编码器负责快速反应,融合摄像头、激光雷达和雷达的时序数据进行实时感知;Driving VLM 则基于 Gemini 微调的高层语义推理,处理罕见或复杂场景的决策。这种设计的初衷是在保证响应速度的同时引入语义理解能力,但在遮挡场景下,两个子系统之间的时序对齐窗口成为了关键瓶颈。

传感器数据的时间戳差异是融合计算中不可忽视的工程现实。激光雷达的旋转扫描周期通常为 100 毫秒,摄像头的帧率为 30 至 60 赫兹,而雷达的数据更新频率可达 100 赫兹甚至更高。当这三种异构数据流需要在统一的时空坐标系中对齐时,即便是 50 毫秒的时钟偏差,也可能导致感知系统对动态物体位置的估计出现 0.5 米至 1 米的误差。在车辆以 17 英里每小时(约 7.6 米每秒)行驶的场景下,这个距离误差对应的反应时间窗口不足 0.15 秒。

时序融合算法的设计选择直接影响系统在遮挡场景下的表现。Waymo 此前在 IROS 2023 发表的 LEF 论文提出了 Late-to-Early 的循环特征融合方案,通过窗口注意力块对时序校准后的稀疏柱状 tokens 进行融合,并在训练阶段引入 FrameDrop 技术以增强模型对可变帧长的泛化能力。这一方法在 Waymo Open Dataset 上显著提升了大型物体的 3D 检测性能,但论文并未特别针对 "物体从完全遮挡状态突然出现" 的边界场景进行评估。

遮挡场景的工程监控参数

针对遮挡场景的系统设计,需要建立一套可量化的监控参数体系。以下是工程实践中应重点关注的阈值指标与监控策略。

时序融合延迟监控:在传感器融合节点,应实时追踪从各传感器原始数据时间戳到融合结果输出的端到端延迟。建议将 95 百分位延迟控制在 80 毫秒以内,99 百分位延迟不超过 120 毫秒。当延迟超过 150 毫秒时,系统应触发降级策略,优先信任高频雷达数据而非等待完整的激光雷达 - 摄像头融合结果。

遮挡置信度衰减模型:对于被部分遮挡的物体,感知系统应维护一个随时间衰减的 "遮挡置信度" 分数。当置信度低于阈值时,系统应将该物体从当前帧的跟踪列表中移除,但保留其在历史缓冲区中的状态,以便在新数据到达时快速恢复跟踪。这一机制的核心参数包括:遮挡置信度初始值(建议 0.9)、衰减速率(建议每秒 0.3)、最小恢复置信度(建议 0.5)。当儿童从 SUV 后方突然冲出时,系统需要快速判断这究竟是新出现的物体,还是此前被遮挡物体的重现。

碰撞时间阈值与区域限速联动:Waymo 在事故中将速度从 17 英里每小时降至 6 英里每小时,说明系统检测到碰撞风险后的制动干预是有效的,但制动距离仍不足以避免接触。工程实践中应将碰撞时间(TTC)阈值与道路类型强关联:在学校区域,建议将 TTC 预警阈值设为 1.5 秒(普通道路为 2.0 秒),强制制动阈值设为 0.8 秒(普通道路为 1.2 秒)。同时,学校区域的全局限速策略应与 ODD 系统联动,将动态 ODD 边界内的最大允许速度限制在 15 英里每小时以内。

多模态数据一致性校验:摄像头、激光雷达和雷达在检测同一物体时,应进行跨模态一致性校验。当三种传感器的检测结果在空间位置上的偏差超过阈值(建议水平方向 0.3 米,垂直方向 0.15 米)时,系统应标记该检测为 "低置信度",并触发额外的数据融合逻辑,而非简单地取平均值或选择某一传感器的结果作为最终输出。

ODD 动态边界的工程化策略

运营设计域(ODD)的定义不应是静态的区域划分,而应是动态的边界感知与平滑降级过程。学校区域的特殊性在于场景的混乱程度随时间呈现强烈的周期性波动:早高峰的送学生时段与晚高峰的接学生时段形成两个高风险窗口,而其他时段则相对可控。

时间感知的 ODD 动态调整:系统应维护一个基于历史数据的场景复杂度热力图,标注不同区域、不同时段的行人密度、车辆停放模式和交通管制状态。在送学生时段(建议早 7:00 至 9:00,晚 15:00 至 17:00),学校周边 200 米范围内的 ODD 应自动收紧,表现为更保守的速度上限、更敏感的障碍物检测阈值和更频繁的驾驶员监控提醒。

基于语义分割的场景复杂度评估:Waymo 的 Driving VLM 在 "Think Slow" 路径中承担高层语义推理职责,其训练数据应特别覆盖学校区域、停车场出入口、商业区人行道等高复杂度场景。在推理阶段,系统应对输入场景进行实时语义分割,识别 "儿童奔跑"、"视线遮挡"、"双排违停" 等高风险特征,并据此调整 "Think Fast" 路径的感知参数。这种语义驱动的动态参数调整,是实现 ODD 从静态划分向动态感知演进的关键技术路径。

降级策略的平滑过渡:当系统检测到当前场景超出设计运行边界时,不应采取激进的 "立即停车" 策略,而应执行平滑的降级流程。首先降低目标速度(每秒减少 2 至 3 英里每小时),同时激活危险警示灯并向远程监控中心发起请求;在确认安全侧后,将车辆驶向最近的路侧停车区域。这一过程中,关键参数包括:降级触发延迟(建议 0.5 秒)、最大降级时长(建议 30 秒)、远程指令等待超时(建议 20 秒)。

安全边界的持续演进

Waymo 声称其系统将导致伤害的碰撞减少了 81%,这一数据基于公司内部的运营统计,缺乏第三方审计的独立验证。更重要的是,81% 的改善幅度是相对于什么基准 —— 是人类驾驶员的平均表现,还是最谨慎驾驶员的最优表现 —— 决定了这一数字的实际意义。无论采用何种统计口径,Santa Monica 事故都提醒我们,即便在最先进的感知系统中,仍存在未被充分覆盖的工程边界。

从系统架构的角度看,当前主流的多模态融合方案在 "物体从遮挡状态突然出现" 这一边界场景下的表现仍有提升空间。未来的技术路线可能包括:引入事件相机(event camera)以获得更高的时间分辨率;开发专门的 "遮挡重识别" 网络模块;在仿真训练阶段刻意增强遮挡场景的覆盖率,使模型学习到更鲁棒的空间推理能力。

对于工程团队而言,事故分析的价值不在于追究责任,而在于识别系统的能力边界并持续收窄这些边界。通过建立细粒度的监控参数体系、实现 ODD 的动态感知与平滑降级、以及在训练数据中刻意覆盖边缘场景,可以逐步提升感知系统在复杂动态环境下的可靠性。安全不是一次达成的状态,而是持续改进过程中的动态平衡。

资料来源:Waymo 官方事故报告(2026 年 1 月 29 日),NHTSA 调查文件 PE26001,Waymo LEF 论文(IROS 2023),WebProNews 报道(2026 年 1 月 29 日)。

查看归档