自动驾驶系统的安全验证面临一个根本性挑战:现实世界中可收集到的极端危险场景数据极其稀少,而这些场景恰恰是验证系统鲁棒性的关键。Waymo 提出的 SceneDiffuser++ 生成式世界模型提供了一种系统性的解决方案,通过端到端的扩散模型架构,在城市规模下生成高保真、多样化的交通场景,旨在弥合真实路测数据与安全验证需求之间的鸿沟。
生成式世界模型的技术架构
SceneDiffuser++ 的核心目标是将交通仿真从有限的真实数据扩展到无限的合成场景。传统仿真依赖人工设计的场景库,不仅耗时耗力,而且难以覆盖真实世界的长尾分布。Waymo 提出的 CitySim 愿景是:给定一张城市地图和自动驾驶软件堆栈,仿真器能够自主模拟从 A 点到 B 点的完整行程,包括动态智能体(如车辆、行人)的行为动画、交通信号灯状态的控制,以及遮挡推理和动态场景生成。这一愿景要求将场景生成、智能体行为建模、遮挡推理、动态场景生成和环境仿真等多个技术模块统一在一个框架中。
SceneDiffuser++ 采用了基于扩散模型的生成范式。与传统的生成对抗网络不同,扩散模型通过逐步去噪的过程学习数据分布,能够生成更加多样化和高保真的场景。在 SceneDiffuser++ 中,扩散模型被应用于场景级轨迹生成,将交通场景建模为一个联合概率分布问题。模型在单一损失函数上进行端到端训练,这意味着场景生成、动态智能体行为和地图元素之间的交互被联合优化,而非割裂处理。这种设计使得模型能够在生成过程中保持场景的时空一致性,避免出现不合理的智能体行为或地图元素冲突。
从技术实现角度,SceneDiffuser++ 的输入包括城市道路地图的矢量表示、初始智能体状态(如位置、速度、朝向)以及仿真时长。模型首先对初始场景进行编码,然后通过扩散过程逐步生成未来轨迹。在去噪过程中,模型需要同时考虑道路几何结构、交通规则约束和智能体间的交互关系。这种约束建模是通过在去噪网络的每个步骤中注入地图语义信息和碰撞避免损失来实现的。实验表明,该模型在 Waymo Open Motion Dataset(WOMD)上展示了优秀的长期仿真保真度,能够在较长的仿真时域内保持场景的真实性和一致性。
极端场景生成的扩散模型应用
极端场景生成的难点在于如何在保持场景合理性的同时,突破正常驾驶行为的分布边界。SceneDiffuser++ 通过几个关键技术实现这一目标。首先是可控生成能力,模型支持通过条件输入指定场景类型,例如生成包含紧急切入、行人闯红灯、传感器遮挡等特定风险因素的场景。这种条件生成机制允许工程师针对特定的安全关切进行定向测试,而无需等待真实世界中恰好出现这些场景。
其次是分布外泛化。扩散模型的特性使其能够在训练数据分布的边界附近进行外推,从而生成训练集中未见过但语义上合理的场景。例如,模型可以生成极端天气条件下的驾驶场景,或者智能体做出激进决策(如急刹车、违规变道)的场景。这种能力对于发现自动驾驶系统的潜在失效模式至关重要。然而,生成极端场景并非越极端越好,场景必须在物理上合理且符合交通法规。SceneDiffuser++ 通过在去噪过程中引入物理约束和规则校验,确保生成的极端场景仍然是有意义的安全测试用例,而非纯粹的噪声。
第三是大规模并行生成能力。Waymo 的仿真基础设施支持同时运行大量 SceneDiffuser++ 实例,生成海量的合成场景用于统计验证。这种规模化的场景生成使得对稀有事件进行可靠估计成为可能。例如,如果一种特定类型的极端场景在真实世界中的发生率为百万分之一,传统方法可能需要行驶数亿英里才能收集到足够的样本,而通过合成生成,可以在短时间内生成数十亿英里的等效仿真数据,大幅提升安全验证的效率。
安全验证的覆盖率量化
安全验证覆盖率是衡量验证充分性的核心指标。Waymo 的安全验证体系采用了多层次的覆盖率定义。第一层是场景覆盖率,即测试用例覆盖的功能场景类型数量。Waymo 定义了数百个功能场景,涵盖直行、交叉路口、匝道汇入、行人横穿等典型驾驶情境。每个功能场景下又包含多个参数变体,如不同的速度组合、智能体类型和初始配置。通过 SceneDiffuser++ 的条件生成能力,可以确保每个功能场景及其变体都被充分测试。
第二层是里程覆盖率。Waymo 的安全验证强调 “等效里程” 的概念,即仿真里程与真实路测里程在统计效力上的等效性。由于仿真环境可以加速运行,单位时间内生成的仿真里程远超真实路测。Waymo 的仿真基础设施能够在数小时内生成数百万英里的合成驾驶数据,这种规模的里程覆盖率是真实路测无法企及的。更重要的是,仿真里程可以针对性地侧重于高风险场景,使得统计效力进一步提升。
第三层是失效模式覆盖率。这是最难量化的一层,关注的是测试用例是否覆盖了自动驾驶系统所有已知的失效模式和假设失效场景。Waymo 维护着一个内部的失效模式库,记录了历史上发现的所有系统缺陷和边缘情况。安全验证的一部分工作就是确保新的软件版本能够通过针对这些失效模式的专门测试。这种失效模式驱动的测试策略与传统的随机测试相结合,提供了更全面的覆盖保障。
覆盖率量化的置信度取决于样本量和场景分布的合理性。Waymo 采用统计置信区间来报告覆盖率指标,通常使用 95% 的置信水平。例如,当报告某类场景的碰撞率为百万分之五时,置信区间会说明这一估计的精确程度。如果样本量不足,置信区间会很宽,表明估计的不确定性较大;如果样本量充足,置信区间收窄,估计的可信度提高。这种透明的置信度报告是安全论证的重要组成部分。
置信度与工程参数
安全验证的置信度建立在扎实的工程实践基础上。Waymo 的安全验证框架包含多个关键参数和阈值。首先是仿真保真度参数,用于衡量合成场景与真实场景的相似程度。常用的指标包括场景合理性评分、智能体行为统计量与真实数据分布的 KL 散度,以及人类评估员的主观保真度评分。只有当合成场景的保真度达到一定阈值时,其验证结果才能被纳入安全论证。
其次是碰撞严重度分类参数。Waymo 的碰撞分析采用多级严重度分类,从轻微擦伤到致命伤害。不同严重度级别的碰撞有不同的可接受阈值。例如,对于涉及严重伤害的碰撞,Waymo 的目标是实现比人类驾驶员更低的碰撞率,且置信度足以排除统计噪声的影响。这种分层的安全目标设定确保了安全验证的针对性和可操作性。
第三是测试场景的参数边界。场景生成中的参数如初始速度范围、智能体间距、反应时间延迟等,都需要在合理范围内变化以覆盖真实的驾驶变异性。参数边界的设定基于真实世界数据的统计分析。例如,智能体反应时间的分布来自自然驾驶研究,碰撞避免系统的响应延迟来自硬件在环测试。这些参数的分布和边界直接影响了合成场景的代表性和验证结果的置信度。
监控指标方面,Waymo 建立了实时的安全监控仪表盘,持续跟踪仿真测试中的关键安全指标。这些指标包括碰撞发生率、碰撞严重度分布、紧急机动频率、系统干预次数等。通过对比不同软件版本和不同场景集的指标变化,可以及时发现性能回归或新的风险点。当指标出现异常波动时,监控系统会自动触发调查流程,确保问题得到及时分析和解决。
资料来源
本文主要参考了 Waymo 公开的研究论文和技术报告,包括 SceneDiffuser++ 论文(CVPR 2025)以及 Waymo 安全研究系列论文。SceneDiffuser++ 论文详细描述了生成式世界模型的技术架构和城市级仿真能力。Waymo 的安全研究论文涵盖了其安全论证方法论、碰撞避免测试以及真实世界安全性能数据,为理解安全验证的量化方法提供了重要参考。