MiniMind：从零用 PyTorch 构建 26M GPT 核心训练组件

在构建小型 GPT 模型时，从零使用 PyTorch 实现核心组件不仅是学习 Transformer 架构的绝佳方式，还能确保训练过程高效且可控。MiniMind 项目通过纯 PyTorch 代码重构了这些组件，避免了对 Hugging Face Transformers 等第三方库的依赖，从而让开发者直接掌控模型的每个细节。这种方法特别适合小规模实验，因为它降低了抽象层，减少了不必要的开销，同时便于调试和自定义优化。

Transformer 块是 GPT 模型的核心构建单元。在 MiniMind 中，TransformerDecoder 采用 Decoder-Only 结构，类似于 GPT-3，但融入了现代改进如 RMSNorm 预标准化和 SwiGLU 激活函数。这些选择提升了训练稳定性和性能，尤其在参数量有限的 26M 模型上。RMSNorm 在每个子层输入前应用，公式为 (\hat {x} = \frac {x}{\sqrt {\mathbb {E}[x^2] + \epsilon}} \cdot g )，其中 ( g ) 是可学习参数，这比 LayerNorm 更高效，因为它省去了均值计算，减少了计算量约 30%。SwiGLU 则替换了传统的 GELU，计算为 ( \text {SwiGLU}(x) = (x W_1) \odot \text {sigmoid}(x W_3) \cdot (x W_2) )，这种门控机制增强了 FFN 层的非线性表达能力。

位置编码使用 Rotary Position Embedding (RoPE)，它通过旋转查询和键向量实现相对位置信息注入，而非绝对位置嵌入。RoPE 的 theta 值设为 1e6，支持长度外推到 2048 以上，而无需额外训练。在实现中，RoPE 函数对多头注意力中的 Q 和 K 应用旋转矩阵：( q_m' = q_m \cos (m\theta) + q_{m+d/2} \sin (m\theta) )，其中 ( m ) 是位置索引，( d ) 是维度。这确保了模型在处理长序列时保持位置敏感性，同时计算开销低，仅为 O (n)。

多头注意力机制是 Transformer 的关键，MiniMind 中实现为自注意力，头数 q_heads=8，kv_heads=2（GQA 变体，减少 KV 缓存）。注意力计算遵循 (\text {Attention}(Q, K, V) = \text {softmax}\left (\frac {QK^T}{\sqrt {d_k}}\right) V )，其中 ( d_k = d_{\text {model}} / \text {q_heads} = 64 )。为高效小规模训练，MiniMind 支持分组查询注意力，KV 头共享减少内存使用。在 26M 配置下（d_model=512, n_layers=8），注意力层参数约占总参数的 50%，这强调了优化 KV 缓存的重要性，尤其在生成时。

BPE (Byte-Pair Encoding) 分词是数据管道的起点。MiniMind 使用自定义 tokenizer，词汇表大小仅 6400，远小于 Llama 的 128k，这大大降低了 embedding 层参数（从～1B 降至～30M），适合小模型。训练 tokenizer 的脚本 train_tokenizer.py 从 tokenizer_train.jsonl 数据集中迭代合并高频字节对，初始词汇为所有 ASCII 字符加基本中文 token。合并阈值设为 10000 次迭代，生成 tokenizer.json。实际使用中，编码函数 tokenize (text) 先字节化，然后贪婪匹配词汇表，解码时逆向拼接。这种紧凑词汇表虽压缩率稍低（OOV 率～5%），但在中文任务上表现良好，避免了 embedding 层主导参数量。

数据加载器设计注重效率和灵活性。使用 PyTorch 的 DataLoader 与自定义 Dataset 类处理 jsonl 格式数据，如 pretrain_hq.jsonl（1.6GB 高质量语料）和 sft_mini_512.jsonl（1.2GB 对话）。在预训练中，Dataset 读取纯文本，随机采样序列长度 512，应用动态填充（padding to max_len）。对于 SFT，解析 conversations 字段，构建 prompt-response 模板：<|im_start|>user\n {content}<|im_end|>\n<|im_start|>assistant\n {content}<|im_end|>\n。批处理时，使用 torch.utils.data.distributed.DistributedSampler 支持 DDP 多卡训练，batch_size=8（单 3090），num_workers=4 加速加载。数据清洗包括去除噪声、长度截断 <512，以及去重，确保质量。

损失评估循环聚焦交叉熵损失（CrossEntropyLoss），忽略填充 token。预训练阶段，损失仅计算于下一个 token 预测：loss = criterion (logits.view (-1, vocab_size), targets.view (-1))。SFT 中，引入因果掩码，仅在 response 部分计算损失，避免泄露 prompt 信息。优化器为 AdamW，lr=5e-4，weight_decay=0.1，warmup_steps=100。训练循环中，每 100 步保存 checkpoint，使用 torch.save (model.state_dict (), 'pretrain_512.pth')。为监控，集成 wandb 日志 loss、perplexity（exp (loss)），以及梯度范数（torch.norm (gradients) < 1.0 阈值警报梯度爆炸）。

可落地参数与清单：在 LMConfig.py 中设置 vocab_size=6400, d_model=512, n_layers=8, d_ff=2048（FFN 隐藏 dim=4*d_model），rope_theta=1e6。训练命令：cd trainer; torchrun --nproc_per_node=1 train_pretrain.py --dataset_path ./dataset/pretrain_hq.jsonl --max_seq_len=512 --batch_size=8 --epochs=1。预期：单 3090 上～1.1 小时，loss ~3.5。SFT 类似，切换 train_full_sft.py，加载预训练权重 model.load_state_dict (torch.load ('pretrain_512.pth'))。风险监控：若 loss 不降，检查数据质量或 lr=1e-4；内存超 20GB，减 batch_size=4 或用 gradient_accumulation_steps=2。回滚策略：保存多个 checkpoint，如 every 50 步，选最低 validation loss。

这种从零构建的方法，不仅验证了 PyTorch 的灵活性，还为扩展到 MoE 或 VLM（如 MiniMind-V）铺平道路。开发者可基于此模板，调整 d_model 到 768（104M 参数），探索 Scaling Law 在小模型上的应用，最终实现高效的本地 GPT 训练实验。（字数：1028）