从零实现最小 Vulkan 游戏引擎：管线、命令缓冲区、同步屏障与渲染循环

构建一个最小 Vulkan 游戏引擎的核心在于简化复杂性，同时掌握管线（pipelines）、命令缓冲区（command buffers）、同步屏障（synchronization barriers）和渲染循环（render loops）。这种方法避免了过度工程化（bike-shedding），直接从绘制三角形起步，逐步添加功能，最终实现一个支持 3D 模型、阴影和 UI 的小引擎。观点是：通过 GfxDevice 抽象封装 boilerplate，使用 Pipeline 模式分离渲染阶段，结合 PVP（Programmable Vertex Pulling）、BDA（Buffer Device Address）和 bindless descriptors 最小化绑定开销，手动管理同步以控制性能。

首先，初始化阶段使用精选库减少样板代码。vk-bootstrap 处理设备选择和交换链创建，VMA（Vulkan Memory Allocator）自动管理内存分配，volk 简化扩展加载。这些库让 VkInstance、VkDevice 和 VkQueue 的创建只需几十行代码。核心是 GfxDevice 类，它封装 Vulkan 上下文：beginFrame () 返回新命令缓冲区（VkCommandBuffer），endFrame () 处理提交、等待和交换链呈现。典型参数：framesInFlight=2（双缓冲避免 stall），swapchain 图像格式 VK_FORMAT_B8G8R8A8_SRGB，支持动态渲染扩展（VK_KHR_dynamic_rendering）以跳过传统 render pass。证据显示，这种抽象只需 700 行代码，却处理图像加载、缓冲创建和 bindless 描述符管理。在初始化时，启用验证层（vkconfig 的 synchronization 层）和调试标签（vkSetDebugUtilsObjectNameEXT），便于 RenderDoc 捕获和错误诊断。

渲染的核心是 Pipeline 模式，每个阶段（如几何、阴影、后处理）一个独立类。每个 Pipeline 有 init () 加载 SPIR-V 着色器（使用 glslc 构建时预编译，支持 DEPFILE 依赖跟踪）、cleanup () 销毁资源、draw () 录制命令。draw () 过程：vkCmdBindPipeline → 绑定全局 bindless 描述符集 → vkCmdPushConstants 传递数据 → vkCmdDraw。使用动态渲染，调用者负责 vkCmdBeginRendering（指定颜色 / 深度附件和 clear 值）和 vkCmdEndRendering，避免子通道复杂性。PipelineBuilder（基于 vkguide）链式设置：setShaders、setInputTopology (VK_PRIMITIVE_TOPOLOGY_TRIANGLE_LIST)、setColorAttachmentFormat (swapchainFormat)、disableDepthTest 等。推常量（push constants）范围 128-256 字节，传递场景数据如缓冲地址、纹理 ID。scalar 布局确保 C++ 和 GLSL 结构体对齐一致。

关键优化技术使引擎高效：PVP + BDA 消除顶点输入绑定。统一顶点结构体（position、normal、uv、tangent），通过 buffer_reference 在顶点着色器拉取：VertexBuffer.vertices [gl_VertexIndex]。推常量传递 VkDeviceAddress，避免描述符绑定。Bindless descriptors 用单一描述符集（set=0）存储所有纹理 / 采样器数组：layout (set=0, binding=0) uniform texture2D textures []。加载纹理时插入数组，得 bindless ID，在片元着色器 nonuniformEXT (sampler2D (textures [texID], samplers [id])) 采样。支持 texture2DMS、textureCube 等。动态数据用 NBuffer：预分配 GPU 缓冲（PREFER_DEVICE）和 CPU staging 缓冲（PREFER_HOST，framesInFlight 个）。每帧 uploadNewData：memcpy 到 staging → vkCmdCopyBuffer2 → 插入读 / 写 barrier。参数：dataSize=16MB（视场景），offset=0，size = 实际数据。

渲染循环是心脏：GfxDevice::beginFrame () 获取 cmd，开始记录。典型帧：

计算皮肤（compute skinning）：skinningPipeline.draw (cmd, skinnedMeshes)，推常量：input/output 缓冲地址、jointMatricesStartIndex、numVertices。local_size_x=256。
插入内存屏障：VkMemoryBarrier2 srcStage=COMPUTE_SHADER_BIT, srcAccess=SHADER_WRITE → dstStage=VERTEX_SHADER_BIT, dstAccess=MEMORY_READ。
阴影映射（CSM）：shadowPipeline.draw () 到 4096x4096 深度纹理（3 slices）。
几何：geometryPipeline.draw (meshes)，PBR 着色，多光源循环计算，MSAA x8 到多采样纹理，后 resolve 到单采样。
深度 resolve（片元着色器 min 深度）。
后处理：postFXPipeline.draw ()，fullscreen 三角形，深度雾等。
UI：spritePipeline.draw ()，instanced 精灵（6 顶点 / 实例，gl_VertexIndex 生成 quad）。
endFrame()：vkQueueSubmit、vkQueuePresentKHR。

同步屏障是难点，手动插入避免数据竞争。使用 VK2 API（vkCmdPipelineBarrier2）：fat barrier 如上例，或精确指定缓冲（VkBufferMemoryBarrier2）。阈值监控：Tracy 分析帧时间（目标 <16ms），RenderDoc 验证无 hazard。常见 pitfalls：忘记 staging 读 barrier 前 memcpy，或 skinning 后无 write→read 屏障。

可落地参数 / 清单：

初始化：vk-bootstrap init_flags=VK_INSTANCE_LAYERS_RENDERDOC；VMA allocatorCreateInfo.flags=VMA_ALLOCATOR_CREATE_BUFFER_DEVICE_ADDRESS_BIT。
Pipeline：pushConstantRanges.size=sizeof (PCS)≤256；PipelineCache 复用。
Bindless：maxTextures=4096，sampler 类型：NEAREST (0)、LINEAR_ANISO (1)。
NBuffer：staging memcpy 后 bufferCopy region size=dataSize；barrier 前检查 frameIndex。
循环：frustum culling（worldBoundingSphere），draw call 批次（sprite 10k/315μs）。
回滚：若 stall，增 framesInFlight=3；内存峰值超，减 MSAA x4。
监控：vkconfig layers=sync-val；RenderDoc 事件浏览器查 pipeline state。

这种最小引擎（~19k LoC，6.7k 图形）支持 glTF 加载、Jolt 物理、entt ECS，证明 Vulkan 可控。实际构建时，从 vkguide 起步，先清屏→三角→纹理→模型，逐步迭代。

资料来源：
[1] https://edw.is/learning-vulkan/ “我用 Vulkan 写了一个小游戏引擎。”
[2] https://github.com/eliasdaler/edbr