Hotdry.
ai-systems

无姿态3D高斯溅射:SPFSplat自监督稀疏视图重建

从无姿态稀疏图像实现3D场景重建,支持无监督新视图合成。详解SPFSplat架构、损失设计与工程参数。

在 3D 重建领域,传统 3D Gaussian Splatting(3DGS)依赖 COLMAP 等 SfM 工具预估相机姿态,但稀疏视图或低重叠场景下 SfM 易失败,导致重建崩溃。SPFSplat 提出自监督无姿态方案,仅需 2-3 张无 pose 图像,通过单次前向传播同时输出 3D 高斯基元与相对姿态,实现高质量新视图合成(NVS)。

SPFSplat 的核心是共享 ViT 骨干网络:输入多视图无 pose 图像,经 ViT 编码器提取共享特征,再经解码器融合多视图信息。三个预测头并行工作:高斯中心头预测 3D 位置,参数头预测旋转 / 缩放 / 不透明度 / SH 系数,姿态头(MLP)回归每个视图相对首个视图的姿态(规范空间)。

训练采用双分支设计:上下文分支(推理用)预测场景;上下文 + 目标分支(训练用)估计目标姿态,用于渲染损失监督。渲染损失计算估计 pose 下渲染图像与 GT 的 L2+LPIPS 差异,同时优化高斯与姿态。

关键创新是重投影损失:强制像素对应高斯中心,经估计姿态重投影回原视图像素位置一致,提供纯几何约束,避免 “作弊”(仅调色不改几何)。论文实验显示,在 RE10K/ACID 数据集,低重叠场景 PSNR 超 pixelSplat 2dB,SSIM 提升显著;相对姿态 ATE 优于 MASt3R。

与其他无 pose 方法对比,SPFSplat 首次在无监督下超需 pose SOTA:无需 SfM 初始化,避免反馈循环崩溃。定性结果显示,桥梁 / 游泳池等几何细节更锐利,无模糊伪影。

工程落地参数:

  • 网络:ViT-Base/16 骨干,Gaussian 头输出 H×W×1 中心(像素对齐),参数头融合 RGB shortcut 强化纹理。
  • 训练:批次 3 视图,AdamW lr=1e-4,300 epochs;渲染分辨率 512×512,高分辨用 deferred backprop。
  • 密度控制:初始化 10M 高斯,优化中自适应克隆 / 分裂(梯度阈值 0.001),最终 < 1M 高斯。
  • 推理:单前向 <1s/GPU(RTX4090),渲染> 100FPS 1080p。
  • 监控点:NVS PSNR>28,LPIPS<0.1;ATE<5° 旋转 / 0.05 平移;Chamfer 距离 < 0.02 几何一致。
  • 回滚:若重叠 < 20%,fallback DUSt3R 预 pose;超参敏感用 grid search(lr 1e-5~1e-3)。

部署清单:

  1. 数据预处理:Resize 512,内参归一化 token 嵌入。
  2. 初始化:零 pose,随机高斯于中心。
  3. 联合优化:交替渲染 loss(w=1.0)+reproj loss(w=0.1)。
  4. 导出:Ply 格式高斯,伴随相对 pose 矩阵。
  5. 测试:LLFF / 自定义手机拍,确保 > 3 视图。

风险:极端稀疏(<2 视图)几何歧义,建议融合单目深度先验;动态场景需扩展 4DGS。

资料来源:arXiv:2508.01171;项目页https://ranrhuang.github.io/spfsplat/;HN 讨论。

查看归档