神经超采样：基于CNN的实时游戏低延迟上采样架构与训练

在实时游戏开发中，图像上采样技术是提升视觉质量的关键瓶颈。传统方法如时间超采样（TSS）依赖手工调优的启发式规则，容易在复杂场景下产生鬼影或时间不稳定问题。相比之下，基于卷积神经网络（CNN）的神经超采样（NSS）通过学习数据驱动的滤波器和参数，实现更鲁棒的抗锯齿和上采样效果，尤其适合移动设备上的低延迟推理。本文聚焦于如何工程化 CNN 架构来支持实时游戏的 NSS，强调训练过程中的多样分辨率对和感知损失函数的使用，提供可操作的参数配置和落地清单，帮助开发者快速集成。

CNN 架构设计：低延迟推理的核心

NSS 的核心是采用四级 UNet 骨干网络，这种架构通过跳跃连接保留空间结构，同时在编码器和解码器模块中进行下采样和上采样操作。输入包括渲染图像（如颜色、运动矢量、深度）、引擎元数据（如抖动矢量、相机矩阵），以及前一帧的隐藏状态。这使得网络能够预测每个像素的动态参数，包括 4×4 滤波核、时间系数和隐藏状态张量。这些输出驱动后处理阶段，实现高效的上采样。

在实时游戏场景下，低延迟是首要需求。UNet 架构的优势在于其紧凑性，仅需约 10 GOPs（Giga Operations Per second）的计算量，支持 540p 到 1080p 的 1.5× 上采样，预计推理时间低于 4ms。即使在 GPU 时钟频率较低的移动硬件上，结合 Vulkan ML 扩展，也能维持 60 FPS 的帧率。相比传统 TSS，NSS 避免了复杂的启发式调整，直接从数据中学习运动动态和锯齿模式，提高了泛化能力。

例如，在快速运动或部分遮挡的游戏场景中，NSS 通过时间反馈机制（如隐藏特征的前向传递和亮度导数计算）检测闪烁薄特征，确保帧间一致性。这比 Arm 的 ASR 或 AMD 的 FSR 2 更可靠，后者依赖静态规则而易受内容变化影响。

训练策略：多样分辨率对与感知损失

训练 NSS 网络时，使用序列化的低分辨率帧（540p，1 spp）和高分辨率地面真相（1080p，16 spp），序列长度约 100 帧，以捕捉时间演变。输入预处理包括计算亮度导数（检测时间不稳定）和去遮挡掩码（标记陈旧历史）。网络采用循环训练方式，在多帧序列上向前运行后进行反向传播，允许梯度通过时间传播，学习信息累积。

损失函数采用时空联合形式：空间保真度部分使用感知损失（如 VGG-based 特征匹配），强调边缘、纹理和细结构的保留；时间稳定性部分惩罚帧间闪烁和抖动。感知损失的引入特别重要，它模拟人类视觉感知，避免单纯的像素级 MSE 导致的模糊输出。根据 Arm 的 NSS 实现，这种损失函数在量化感知训练中使用 ExecuTorch，确保模型在 INT8 量化后保持视觉质量。

优化器选用 Adam，学习率采用余弦退火调度，从初始 1e-3 衰减到 1e-5。数据增强包括随机抖动、旋转和噪声注入，以模拟游戏引擎的变异性。训练批次大小为 4，序列长度 100，训练约 200 epochs，在 NVIDIA A100 GPU 上耗时数天。结果显示，NSS 在 PSNR 和 SSIM 指标上优于基线 10-15%，特别是在粒子效果和薄几何体场景中。

引用 Arm 的技术报告：“NSS 的训练使用时空损失函数，同时惩罚空间保真度和时间一致性的错误。” 这验证了感知损失在提升 perceptual quality 方面的作用。

可落地参数配置与监控要点

要将 NSS 集成到实时游戏引擎中，需要细化推理管道的参数。预处理阶段作为 GPU 计算着色器运行，收集像素属性并组装输入张量。关键参数包括：

运动矢量膨胀阈值：设为 2-4 像素，减少重投影时的锯齿。过高会导致过度模糊，过低则放大伪影。
Catmull-Rom 滤波半径：1.0-1.5，用于历史重投影，平衡锐度和稳定性。
4×4 滤波核权重：网络输出后，归一化为 sum=1；阈值过滤 < 0.1 的核，以避免噪声放大。
时间系数（alpha）：累积缓冲区混合新旧帧，初始设为 0.7（偏向历史），在高运动场景动态调整到 0.3。
theta 参数阈值：用于历史拒绝，>0.5 时丢弃陈旧样本，防止 “火萤” 伪影（在色调映射域计算）。

后处理清单：

运动矢量膨胀：扩展边界以覆盖重投影误差。
历史重投影：使用 Catmull-Rom 插值融合前帧。
当前帧滤波：应用预测核抗锯齿低分辨率输入。
稀疏上采样：将抖动样本映射到高分辨率网格，零填充缺失像素后滤波。
校正与累积：theta 拒绝无效历史，alpha 混合到色调映射缓冲区。
输出色调反转：恢复线性域。

监控要点包括实时指标追踪：使用 FLIP 作为感知错误度量，目标 <0.1；SSIM>0.95 表示时间稳定。部署时，设置性能预算：总延迟 < 4ms，神经加速器利用率 > 40%。如果 FPS 掉至 < 50，回滚到传统 TSS：禁用 NSS 网络，直接使用固定滤波核。

风险与限制：量化可能引入视觉伪影，建议在 fine-tune 时监控 PSNR 下降 < 2dB。硬件依赖 Arm 2026 GPU，若不支持，fallback 到 CPU 推理但延迟增加 20%。在多样游戏内容上，fine-tune NSS 需额外数据集，周期 1-2 周。

工程化实践：从原型到生产

在 Unity 或 Unreal Engine 中集成 NSS，首先通过 Arm Neural Graphics SDK 导入模型。预处理着色器用 Slang 编写，支持跨平台。推理调用 Vulkan ML，输出张量直接馈入后处理管道。测试序列使用 CI 工作流，重放 100 帧场景，比较 NSS 与 ASR 的稳定性。

对于特定游戏，如开放世界 RPG，训练数据集需包括多样分辨率对（360p-4K），注入游戏特定运动（如角色跳跃）。感知损失权重：空间 0.7，时间 0.3；添加 LPIPS 作为辅助，提升纹理保真。

落地清单：

硬件要求：Arm GPU with neural accelerator, ≥10 TOP/s/watt。
软件栈：PyTorch for training, ExecuTorch for quantization, Vulkan 1.3+ for inference。
调优参数：学习率 1e-4，batch=8，epochs=150；推理阈值如上。
回滚策略：检测延迟 > 3ms 时，切换到 FSR 2 模式，日志 PSNR 变化。
监控工具：集成 Grafana dashboard，追踪 GOPs、FLIP、帧时间。

通过这些配置，NSS 可将游戏视觉质量提升 20%，在移动设备上实现 1080p@60FPS。开发者应从小规模原型开始，逐步扩展到生产，确保在边缘案例（如高动态范围场景）下的鲁棒性。

（字数统计：约 1050 字）