在生成式AI迅猛发展的当下,从文本生成单个3D资产已趋成熟,但构建大规模、可导航的沉浸式3D世界仍面临几何一致性、风格统一与交互支持的挑战。Meta最新发布的WorldGen系统,通过分层扩散模型与程序化规划,实现了从单句提示生成50×50米完整3D场景的能力。该系统输出网格化(mesh)结构,直接兼容Unity/Unreal,支持实时NeRF渲染与物理交互,标志着文本到沉浸式世界的工程化跃进。
WorldGen的核心观点在于“全局布局先行,分层精修后置”,避免了传统方法从单一视角局部扩展导致的远处退化问题。其管道分为四个阶段:规划、重建、分解与精修,每阶段嵌入特定扩散模型,确保从宏观布局到微观纹理的全链路一致性。
首先,规划阶段采用程序化blockout生成初始布局。通过扩散模型从文本提示(如“卡通中世纪村庄”)推断场景拓扑,提取导航网格(navmesh)。工程参数上,建议navmesh分辨率设为0.5–1米/单元,确保路径规划覆盖率>95%;blockout迭代步数控制在50–100步,避免过拟合提示词。参考图像生成使用多视图扩散(e.g., 8–12视角),以指导后续重建。
重建阶段将参考图像转为3D基础模型。核心是图像到3D扩散模型,结合navmesh约束生成场景几何与初始纹理。关键参数包括扩散噪声スケール(scale=0.02–0.05),控制几何保真度;纹理分辨率初始为512×512,后续上采样至2K。证据显示,此阶段输出已在50m范围内保持几何一致,远超Gaussian Splatting方法在3–5m外崩坏的局限。
分解阶段引入加速版AutoPartGen,将场景拆分为独立对象(如房屋、道路)。阈值设置:部件提取IoU>0.7,数据整理时过滤小物体(体积<1%场景)。这便于后续编辑与交互,例如用户拖拽钟楼而不破坏广场布局。
精修阶段优化整体:图像增强提升细节,网格精修模型修复拓扑漏洞,纹理生成模型统一风格。参数清单包括:网格精修学习率1e-4,迭代200 epochs;纹理扩散步数100–200,风格一致性损失权重0.3。最终输出mesh支持NeRF渲染,实时FPS目标>60@1080p。
落地实施时,监控要点不可忽视。部署清单:1)一致性度量——跨视图Chamfer距离<0.1,纹理LPIPS<0.2;2)交互测试——navmesh连通率100%,碰撞检测漏检<1%;3)性能阈值——生成延迟<5min(A100×8),内存峰值<80GB;4)回滚策略——若一致性<阈值,fallback到局部修复扩散,仅重生成问题区域。
风险控制:当前规模限50×50m,超大场景易累积误差,建议分块生成(block=25×25m,重叠10%);高算力需求下,云端优先,监控GPU利用率>90%。未来扩展可增程序化规则增强布局多样性。
WorldGen不复述新闻,而是提供可操作框架:开发者可fork管道,调参适应游戏/仿真场景。相比World Labs Marble,其mesh优先确保功能性,而非纯视觉。
资料来源:Meta WorldGen论文(fbcdn PDF);新浪财经报道(2025-11-22)。