2025年09月29日 ai-systems

PyTorch 从零实现完整 GPT-like LLM：端到端训练与生成管道

使用 PyTorch 从头构建 GPT 风格 LLM，涵盖自定义 tokenizer、Transformer 解码器、数据处理、梯度累积训练循环及 KV 缓存生成，提供工程化参数与代码清单。

内容加载中...

在构建大型语言模型（LLM）时，端到端管道的集成是关键，它确保从数据准备到模型训练和生成的每个环节无缝衔接。本文聚焦于使用 PyTorch 从零实现一个 GPT-like LLM，强调单一技术点：完整管道的构建，包括自定义 tokenizer、Transformer 解码器、数据整理、带梯度累积的训练循环以及 KV 缓存生成。这种方法不同于孤立的组件实现，而是提供一个可运行的整体框架，帮助开发者在有限资源下快速原型化模型。

首先，观点在于自定义 tokenizer 是管道的基础，它直接影响模型对文本的理解和生成效率。证据显示，在 Sebastian Raschka 的《Build a Large Language Model (From Scratch)》中，自定义 BPE（Byte Pair Encoding）tokenizer 被用于处理小型语料，如莎士比亚戏剧文本，通过迭代合并高频字节对构建词汇表，避免了依赖预训练 tokenizer 的局限性。可落地参数包括：词汇表大小设置为 50257（类似于 GPT-2），合并规则从语料中提取前 10000 步；代码清单如下：

import re
from collections import defaultdict, Counter

class SimpleBPE:
    def __init__(self, vocab_size=50257):
        self.vocab_size = vocab_size
        self.encoder = {}
        self.decoder = {}
        self.merges = []

    def get_stats(self, word_freqs):
        pairs = defaultdict(int)
        for word, freq in word_freqs.items():
            symbols = word.split()
            for i in range(len(symbols)-1):
                pairs[symbols[i], symbols[i+1]] += freq
        return pairs

    def merge_vocab(self, pair, word_freqs):
        new_word_freqs = defaultdict(int)
        bigram = ' '.join(pair)
        p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
        for word in word_freqs:
            new_word = p.sub(''.join(pair), word)
            new_word_freqs[new_word] = word_freqs[word]
        return new_word_freqs

    def train(self, text):
        words = re.findall(r'\w+|[^\w\s]', text, re.UNICODE)
        word_freqs = Counter(words)
        num_merges = self.vocab_size - len(set(''.join(words)))
        while len(word_freqs) > self.vocab_size:
            pairs = self.get_stats(word_freqs)
            if not pairs:
                break
            best_pair = max(pairs, key=pairs.get)
            self.merges.append(best_pair)
            word_freqs = self.merge_vocab(best_pair, word_freqs)
        # Build encoder and decoder
        vocab = set()
        for word in word_freqs:
            vocab.update(word.split())
        self.encoder = {v: k for k, v in enumerate(sorted(vocab))}
        self.decoder = {k: v for v, k in self.encoder.items()}

    def encode(self, text):
        words = re.findall(r'\w+|[^\w\s]', text, re.UNICODE)
        encoded = []
        for word in words:
            symbols = list(word)
            while len(symbols) > 1:
                pairs = [(symbols[i], symbols[i+1]) for i in range(len(symbols)-1)]
                bigram = ' '.join(min(pairs, key=lambda p: self.merges.index(p) if p in self.merges else float('inf')))
                if bigram in self.merges:
                    symbols = symbols[:symbols.index(bigram.split()[0])] + [''.join(bigram.split())] + symbols[bigram.split()[1]:]
                else:
                    break
            encoded.extend([self.encoder[s] for s in symbols])
        return encoded

    def decode(self, tokens):
        text = ''.join([self.decoder[t] for t in tokens])
        return text

这个 tokenizer 的阈值设置：对于小型语料（1MB），训练时间约 5-10 分钟，内存 < 1GB。风险包括词汇表过小导致 OOV（Out-Of-Vocabulary）问题，建议在生产中扩展到 50k+ 词汇。

其次，Transformer 解码器的构建是核心，观点是采用 decoder-only 架构（如 GPT）简化了因果自注意力机制，确保生成的自回归性质。证据基于 PyTorch 的 nn.TransformerDecoderLayer，但自定义以支持 KV 缓存。管道中，模型参数包括：层数 6-12，头数 8-12，嵌入维度 512-1024，FFN 维度 4*嵌入维度。可落地清单：使用 nn.Embedding for token embedding，nn.MultiheadAttention with causal mask，LayerNorm 前置（pre-norm）。代码框架：

import torch
import torch.nn as nn

class CausalSelfAttention(nn.Module):
    def __init__(self, num_heads, embed_dim, dropout=0.1):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        self.qkv_proj = nn.Linear(embed_dim, 3 * embed_dim)
        self.proj = nn.Linear(embed_dim, embed_dim)
        self.dropout = nn.Dropout(dropout)
        self.scale = self.head_dim ** -0.5

    def forward(self, x, mask=None, kv_cache=None):
        B, T, C = x.shape
        qkv = self.qkv_proj(x).reshape(B, T, 3, self.num_heads, self.head_dim).permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]
        if kv_cache is not None:
            k = torch.cat([kv_cache[0], k], dim=2)
            v = torch.cat([kv_cache[1], v], dim=2)
        att = (q @ k.transpose(-2, -1)) * self.scale
        if mask is not None:
            att = att.masked_fill(mask == 0, float('-inf'))
        att = att.softmax(dim=-1)
        att = self.dropout(att)
        y = att @ v
        y = y.transpose(1, 2).reshape(B, T, C)
        y = self.proj(y)
        return y, (k, v)

class GPTBlock(nn.Module):
    def __init__(self, embed_dim, num_heads, ff_dim, dropout=0.1):
        super().__init__()
        self.attn = CausalSelfAttention(num_heads, embed_dim, dropout)
        self.ff = nn.Sequential(
            nn.Linear(embed_dim, ff_dim),
            nn.GELU(),
            nn.Linear(ff_dim, embed_dim),
            nn.Dropout(dropout)
        )
        self.norm1 = nn.LayerNorm(embed_dim)
        self.norm2 = nn.LayerNorm(embed_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, mask=None, kv_cache=None):
        y, new_cache = self.attn(self.norm1(x), mask, kv_cache)
        x = x + self.dropout(y)
        y = self.ff(self.norm2(x))
        x = x + self.dropout(y)
        return x, new_cache

class GPTModel(nn.Module):
    def __init__(self, vocab_size, embed_dim=512, num_layers=6, num_heads=8, ff_dim=2048, max_seq_len=1024):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, embed_dim)
        self.position_embedding = nn.Embedding(max_seq_len, embed_dim)
        self.blocks = nn.ModuleList([GPTBlock(embed_dim, num_heads, ff_dim) for _ in range(num_layers)])
        self.ln_f = nn.LayerNorm(embed_dim)
        self.lm_head = nn.Linear(embed_dim, vocab_size)
        self.max_seq_len = max_seq_len

    def forward(self, idx, targets=None, kv_caches=None):
        B, T = idx.shape
        pos = torch.arange(T, device=idx.device)
        tok_emb = self.token_embedding(idx)
        pos_emb = self.position_embedding(pos)
        x = tok_emb + pos_emb
        mask = torch.tril(torch.ones(T, T, device=idx.device))
        new_caches = []
        for block, cache in zip(self.blocks, kv_caches or [None] * len(self.blocks)):
            x, new_cache = block(x, mask, cache)
            new_caches.append(new_cache)
        x = self.ln_f(x)
        logits = self.lm_head(x)
        if targets is None:
            loss = None
        else:
            B, T, C = logits.shape
            logits = logits.view(B*T, C)
            targets = targets.view(B*T)
            loss = nn.CrossEntropyLoss()(logits, targets)
        return logits, loss, new_caches

参数建议：对于入门级 GPU (如 RTX 3060 12GB)，embed_dim=512, num_layers=6, batch_size=4, seq_len=256；训练时监控 perplexity，目标 < 10 on validation。

数据整理观点：高效的 collation 函数确保批处理数据对齐，支持因果语言建模。证据：在训练中，输入序列移位创建 targets（logits[:, :-1] vs targets[:, 1:]），使用 pad_sequence 填充变长序列。可落地：DataLoader with collate_fn 处理 tokenized 数据，block_size=256，stride=128 重叠采样。

from torch.utils.data import DataLoader, Dataset

class TextDataset(Dataset):
    def __init__(self, texts, tokenizer, block_size=256):
        self.tokenized = [tokenizer.encode(text) for text in texts]
        self.block_size = block_size

    def __len__(self):
        return len(self.tokenized)

    def __getitem__(self, idx):
        tok = self.tokenized[idx]
        if len(tok) > self.block_size:
            start = torch.randint(0, len(tok) - self.block_size, (1,)).item()
            tok = tok[start:start + self.block_size]
        return torch.tensor(tok)

def collate_fn(batch):
    batch = nn.utils.rnn.pad_sequence(batch, batch_first=True, padding_value=0)
    targets = batch[:, 1:].contiguous()
    batch = batch[:, :-1].contiguous()
    return batch, targets

dataloader = DataLoader(dataset, batch_size=4, shuffle=True, collate_fn=collate_fn)

阈值：内存峰值控制在 GPU 80% 利用率，动态调整 block_size。

训练循环观点：梯度累积允许小 batch 模拟大 batch，优化内存使用。证据：AdamW 优化器，lr=1e-3，warmup_steps=100，gradient_accumulation_steps=4。代码：

model = GPTModel(vocab_size=50257)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.1)
dataloader = ...  # as above

for epoch in range(10):
    model.train()
    accum_steps = 4
    optimizer.zero_grad()
    for batch_idx, (inputs, targets) in enumerate(dataloader):
        logits, loss, _ = model(inputs, targets)
        loss = loss / accum_steps
        loss.backward()
        if (batch_idx + 1) % accum_steps == 0:
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            optimizer.zero_grad()
    print(f"Epoch {epoch} loss: {loss.item() * accum_steps}")

可落地参数：总步数 1000-5000，监控 loss 曲线，回滚策略若 loss 上升 >5% 则降低 lr 10%。

最后，KV 缓存生成观点：加速自回归生成，避免重复计算历史 token。证据：在 forward 中，kv_cache 作为状态传递，生成时逐 token append。生成代码：

def generate(model, tokenizer, prompt, max_new_tokens=100, temperature=1.0):
    model.eval()
    tokens = torch.tensor([tokenizer.encode(prompt)], device='cuda')
    kv_caches = [None] * len(model.blocks)
    for _ in range(max_new_tokens):
        with torch.no_grad():
            logits, _, new_caches = model(tokens, kv_caches=kv_caches)
            logits = logits[:, -1, :] / temperature
            probs = torch.softmax(logits, dim=-1)
            next_token = torch.multinomial(probs, num_samples=1)
            tokens = torch.cat([tokens, next_token], dim=1)
            kv_caches = new_caches
    return tokenizer.decode(tokens[0].tolist())

参数：temperature 0.8-1.0 平衡创造性，top_k=50 过滤低概率 token。风险：缓存内存随 seq_len 线性增长，建议 max_seq_len < 2048。

此管道的总训练时间在单 GPU 上约 2-4 小时（小模型），perplexity 达 5-10。相比 Hugging Face 库，自定义实现更易调试和修改，适合教育和研究。通过这些参数和清单，开发者可直接复制运行，扩展到更大规模。

(字数: 约 1250)