用 PyTorch 从零构建最小字符级文本扩散模型

在生成式 AI 领域，扩散模型最初以图像生成闻名，但其原理同样适用于文本生成。通过逐步添加噪声并学习逆向去噪过程，扩散模型能从随机噪声中生成连贯的序列。本文聚焦于字符级文本扩散模型的从零构建，使用 PyTorch 实现一个最小化版本，强调简单噪声机制和 Transformer 作为去噪网络的核心作用。这种方法特别适合小数据集训练，避免了大型语言模型的资源消耗。

扩散模型的核心是前向噪声过程和后向去噪过程。在前向过程中，我们从干净的文本序列开始，逐步添加高斯噪声，直到序列接近纯噪声分布。具体到字符级实现，文本被转换为 one-hot 编码或嵌入向量，噪声以 β_t 方差调度逐步累积。证据显示，这种渐进噪声能有效捕捉序列的统计分布，而非直接从均匀噪声开始，能提高生成质量。根据 Denoising Diffusion Probabilistic Models (DDPM) 论文，这种过程数学上等价于马尔可夫链，允许精确的变分下界优化。

在 PyTorch 中实现噪声添加非常直观。我们定义一个 β 调度数组，例如线性从 1e-4 到 0.02 增长，共 128 步。代码片段如下：def add_noise (x, t, noise): alpha_bar = ...; return sqrt (alpha_bar [t]) * x + sqrt (1 - alpha_bar [t]) * noise。这种简单机制避免了复杂采样器，确保模型学习预测噪声 ε 而非完整序列。实际工程中，选择 128 步平衡了训练稳定性和采样速度；若步数过少，模型可能欠拟合噪声模式。

去噪网络是扩散模型的灵魂。在图像领域常用 U-Net，但对于文本序列，Transformer 更合适，因为它擅长捕捉长程依赖。本实现基于 nanoGPT 的修改版，采用 6 层 Transformer 解码器，每层包含多头自注意力（6 头）和前馈网络，嵌入维度为 384。输入是噪声序列加上时间步嵌入（使用正弦位置编码），输出预测噪声。参数总量仅 10.7 百万，远小于 GPT-2 的 124M，便于本地训练。证据来自仓库实验：在 Tiny Shakespeare 数据集（约 1MB）上，20,000 步训练后，模型能生成莎士比亚风格的连贯段落，尽管偶尔出现重复。

训练管道设计为端到端优化。数据集预处理：读取 Tiny Shakespeare，构建字符词汇表（约 65 个字符），转换为整数序列，批次大小 64，序列长度 256。损失函数为均方误差（MSE），目标是预测添加的噪声：loss = F.mse_loss (pred_noise, true_noise)。优化器使用 AdamW，学习率 3e-4，权重衰减 0.1。完整训练循环包括采样时间步 t ~ Uniform (0, T)，添加噪声，模型前向，计算损失并反向传播。监控指标：每 1000 步评估生成样本，观察 perplexity 或人工检查连贯性。实际参数：批次大小根据 GPU 调整（单 RTX 3090 可达 32），总步数 20k-50k 迭代，约 1-2 小时训练时间。

为确保可落地，以下是关键工程参数清单：

超参数配置：
- 扩散步数 T = 128
- 噪声调度：线性 β，从 1e-4 到 0.02
- 模型维度 d_model = 384
- 层数 n_layer = 6
- 注意力头 n_head = 6
- Dropout = 0.1
训练设置：
- 批次大小 batch_size = 64（视内存调整）
- 学习率 lr = 3e-4
- 优化器：AdamW (betas=(0.9, 0.95))
- 调度器：cosine annealing with warm restarts
- 早停：若验证损失 5 个 epoch 无改善
数据处理：
- 词汇表：动态构建，包含所有独特字符
- 嵌入：nn.Embedding (vocab_size, d_model)
- 位置编码：sinusoidal for sequence and time steps
- 数据加载：torch.utils.data.Dataset with random window sampling
采样过程：
- 从纯高斯噪声 x_T ~ N (0, I) 开始
- 迭代 T 步：x_{t-1} = (1/sqrt (alpha_t)) * (x_t - (sqrt (1-alpha_t)/sqrt (1-alpha_bar_t)) * pred_noise) + sigma_t * z
- 温度控制：采样时可调整 sigma 以增加多样性（默认 0）

潜在风险包括过拟合小数据集，导致生成模式单一；缓解策略是添加 L2 正则化和数据增强（如随机掩码）。另一个限制是序列长度固定为 256，扩展需调整位置编码。监控要点：跟踪训练 / 验证 MSE 曲线，若曲线振荡，降低学习率；生成样本中检查 n-gram 多样性，避免循环。

在实际部署中，此模型适用于教育演示或原型验证，而非生产级生成。相比 autoregressive 模型，扩散方法在并行训练上更高效，但采样较慢（128 步 vs. 自回归的单步）。未来可扩展到词级或结合 classifier-free guidance 提升条件生成。

资料来源：

GitHub 仓库：https://github.com/nathan-barry/tiny-diffusion
灵感来源：nanoGPT (https://github.com/karpathy/nanoGPT) 和 DDPM 论文 (Ho et al., 2020)。

（字数约 950）