在自动驾驶和机器人感知领域,LiDAR 是核心传感器之一。传统方法多依赖点云数据,即从波形中提取峰值位置和强度后形成的稀疏点集。这种处理不可避免地丢失了波形中的丰富信息,如多峰回波、散射细节和低信噪比(SNR)信号,尤其在雾霾或雨雪等恶劣天气下表现欠佳。近期 ICCV 2025 论文《Lidar Waveforms are Worth 40×128×33 Words》提出了一种创新方案:直接将原始 LiDAR 全波形(full-waveform LiDAR, FWL)编码为固定尺寸的 token 体积(40×128×33),馈入时空 Transformer 进行端到端处理。这一方法视波形序列为 “词汇”,充分利用 Transformer 的全局注意力机制,实现了细节保留与鲁棒性双提升。
为什么选择波形令牌化?
点云方法依赖手工设计的数字信号处理器(DSP),如高斯分解或匹配滤波,易受噪声干扰,无法捕捉波形间的时空上下文。例如,在雾中,多路径散射导致峰值模糊,传统 DSP 只能输出低质量点云。而波形令牌化保留了完整时域信号(典型 2112 个时间 bin,每 bin 266 ps,对应最大 85m 范围),通过学习方式提取特征。40×128 表示传感器空间分辨率(垂直 40 线 × 水平 128 像素,常見于闪光 LiDAR 如 Microvision MOVIA),33 表示每个波形 patch 的 token 数(典型 32 维嵌入 + 1 维位置编码)。
这一 token 体积类似于 ViT 中的图像 patch 序列,但专为 3D 时空数据优化。优势在于:
- 细节保留:波形包含幅度、宽度、多峰等信息,直接 tokenized 避免信息瓶颈。
- 全局建模:Transformer 注意力跨相邻 beam 和时间,处理低 SNR 场景。
- 固定输入:40×128×33 标准化,便于 batching 和预训练。
论文实验显示,在雾天场景,该方法最大探测范围达 56.71m,比基线 Lindell et al. 的 28.41m 提升近一倍。
令牌化过程与关键参数
核心是构建 “学习 DSP”:
- 预处理:匹配滤波后,1D 时域卷积提升 SNR。参数:kernel_size=7, stride=1, padding='same',激活 ReLU。
- Patch 分割:每个波形(2112 bins)均匀分 33 个 patch(约 64 bins/patch)。每个 patch 通过线性投影 + 展平至 32 维特征向量。
- 位置编码:正弦编码(sinusoidal),维度 32,注入时间和空间位置:sin (2π * pos / 10000^{2i/D})。
- Token 体积:最终形状 [B, 40, 128, 33, 32] → 重塑为序列 [B, 4012833, 32],总 token 数约 168k,适合高效 Transformer。
工程参数建议:
- 嵌入维度 D=32:平衡表达力和计算(ViT 小型)。
- 时间分辨率:266 ps/bin,视传感器调整;模拟数据用 CARLA + 物理 FWL 模型。
- 下采样:Encoder 用 patch merging,每层减半分辨率(40→20→10),保留多尺度。
Transformer 架构设计
采用 U-Net 风格时空 Transformer:
- Encoder:4 层,每层 multi-head attention (heads=8),FFN dim=128,dropout=0.1。跨 beam attention(swin-like local window)。
- Decoder:对称上采样,预测每个 token 的距离、置信度、天空掩码和峰值位置。
- 损失函数:L1 距离 + BCE 置信 + focal loss 多峰。权重 [1.0, 0.5, 0.2]。
- 训练策略:AdamW lr=1e-4, weight_decay=1e-2, batch=16, epochs=100。混合真实(室外 / 雾室)和模拟数据,比例 1:3。
扩展到超分辨率:Decoder 输出 9x 稠密点云,利用波形多峰线索。
计算需求:RTX 4090 上推理 30 FPS(40×128 输入),训练 2 天 / A100。
落地实现清单
-
数据准备:
- 采集:FWL 传感器 SDK,同步 IMU/GPS。
- Augmentation:雾模拟(Beer-Lambert 衰减),SNR 抖动 [-10dB, 10dB]。
- GT 生成:Velodyne/Leica 点云配准。
-
代码框架:
- PyTorch 2.1+,用 timm ViT backbone 改时空。
- 输入预处理:torch.nn.Conv1d (in=1, out=16, k=7)。
- Tokenize:自定义 PatchEmbed1D。
-
部署参数:
- 阈值:置信 >0.5 输出点;范围滤波 <80m。
- 监控:在线 RMSE、mAP@0.5、雾衰减率。告警:range_drop >20%。
- 回滚:若 Transformer OOM,fallback 传统 DSP。
-
优化点:
- 量化 INT8,FPS +2x。
- Distillation:学生模型 D=16。
- 多传感器融合:与相机 BEV 级联。
风险与限制:计算密集(168k tokens),对特定传感器敏感;模拟 - 真实域移位需域适应。实际部署建议 A/B 测试,初始权重 传统 DSP 50% 流量。
此方法标志着 LiDAR 处理从手工到学习的范式转变,适用于 L4+ 自动驾驶。未来可扩展到 ToF 相机或多模态。
资料来源:
- Scheuble et al., "Lidar Waveforms are Worth 40x128x33 Words", ICCV 2025. openaccess.thecvf.com
- Princeton Light Lab PDF. light.princeton.edu
(正文约 1250 字)