2025年09月24日 ai-systems

实现 n-gram 马尔可夫链用于文本下一 token 预测：与 LLM 自回归机制的类比

通过 n-gram 马尔可夫链实现文本自回归生成，类比 LLM 机制，提供代码与参数优化。

内容加载中...

马尔可夫链作为概率建模的基础工具，在自然语言处理中长期用于模拟文本序列的生成过程。它本质上是一种状态转移模型，其中下一个状态仅依赖于当前状态，这种“无记忆性”特性使其特别适合序列预测任务。在文本生成领域，n-gram 马尔可夫链通过统计前 n-1 个词的上下文来预测下一个词，从而实现自回归式的文本生成。这与现代大型语言模型（LLM）的 autoregressive 机制高度相似，后者也逐步基于先前 token 生成下一个 token，但 LLM 借助神经网络捕捉更复杂的模式，而马尔可夫链则依赖简单的计数统计。这种类比不仅揭示了 LLM 的概率根基，还为理解基础模型提供了直观视角。

要实现 n-gram 马尔可夫链，首先需要理解其核心原理。假设我们有一个文本语料，如莎士比亚的戏剧片段。基本思想是：给定前 n-1 个词（称为上下文或状态），计算该上下文后跟随下一个词的条件概率 P(next_word | previous n-1 words)。在马尔可夫链中，这通过构建转移字典实现：键为 n-1 元组，值为跟随词的列表（可带频率权重）。生成过程从一个起始状态开始，迭代采样下一个词，直到达到预设长度或结束条件。这种方法是 autoregressive 的，因为每个新 token 都条件于之前生成的序列。

实现步骤如下。第一步，预处理文本：去除标点、转换为小写、分词。例如，使用 Python 的 re 和 split 处理原始文本。第二步，构建模型。对于 bigram (n=2)，遍历词序列，对于每个词对 (word_i, word_{i+1})，在字典中累加 word_{i+1} 到 word_i 的列表中。若使用 trigram (n=3)，则键为 (word_{i-1}, word_i) 的元组。第三步，生成文本：从随机起始词或种子开始，查找当前状态的可能后继词，根据频率随机采样（使用 random.choice 加权）。如果状态无后继，可回退到 unigram 或停止。

以下是一个简化的 Python 实现示例，使用 collections.defaultdict：

from collections import defaultdict
import random
import re

def preprocess(text):
    text = re.sub(r'\W+', ' ', text.lower())
    return text.split()

def build_ngram_model(words, n=2):
    model = defaultdict(list)
    for i in range(len(words) - n + 1):
        context = tuple(words[i:i+n-1])
        next_word = words[i+n-1]
        model[context].append(next_word)
    return model

def generate_text(model, seed_words, length=50, n=2):
    words = seed_words.split()
    for _ in range(length - len(words)):
        context = tuple(words[-n+1:])
        if context in model:
            next_word = random.choice(model[context])
            words.append(next_word)
        else:
            break
    return ' '.join(words)

# 示例使用
text = "To be or not to be, that is the question. Whether 'tis nobler in the mind to suffer."
words = preprocess(text)
model = build_ngram_model(words, n=2)
generated = generate_text(model, "to be", length=20, n=2)
print(generated)  # 示例输出: to be or not to be that is

这个代码的核心是 build_ngram_model 函数，它高效存储转移关系。生成时，generate_text 使用当前上下文采样，确保自回归性质。在实际应用中，可扩展到更高阶 n-gram 以提升连贯性。

现在，探讨与 LLM 自回归的类比。LLM 如 GPT 系列使用 transformer 架构，通过自注意力机制计算 P(token_t | tokens_1 to t-1)，其中概率由 softmax 输出 logit 得到。这与 n-gram 马尔可夫链的 P(next | prev n-1) 类似，但 LLM 的“n”本质上是整个上下文窗口（可达数千 token），而非固定小 n。证据上，马尔可夫链的简单计数等价于 LLM 的早期 embedding 层统计，但 LLM 通过训练优化捕捉语义和长程依赖。例如，在 n=2 的马尔可夫链中，“the cat” 可能总是接 “is”，但无法理解“the cat sat on the mat”的整体结构；LLM 则能生成更自然的续写。引用一个 Python n-gram 教程，“n-gram 模型通过频率统计实现基本自回归，但易受稀疏数据影响”（源自网络教程）。这种平行突显了从统计模型向深度学习的演进：马尔可夫链是 LLM 的概率基础，但后者通过梯度下降超越了手工特征。

在工程落地中，选择合适参数至关重要。首先，n 值：n=1 (unigram) 生成随机词堆砌，适合简单填充；n=2 平衡效率与连贯，适用于短句生成；n=3 或更高提供更好语法，但计算成本指数增长（O(v^{n-1})，v 为词汇量）。建议从 n=2 开始，语料规模 >10k 词时增至 n=3。其次，处理稀疏：零概率问题可用 Laplace smoothing，即 P(w|context) = (count(w|context) + 1) / (total + V)，其中 V 为词汇大小。这确保未知转移有小概率，避免生成中断。第三，种子与温度：使用特定种子如“the quick”引导主题；引入温度参数 τ，通过 softmax( logits / τ ) 控制随机性（τ<1 保守，τ>1 创意）。监控点包括：困惑度（perplexity）评估模型质量，低 perplexity 表示更好预测；生成多样性用 n-gram 重复率衡量，避免循环。回滚策略：若生成卡住，回退到较低 n 或添加噪声重采样。

此外，可落地清单包括：1. 语料准备：选择领域特定文本，确保多样性（如书籍、新闻）。2. 优化存储：对于大语料，用 Counter 计数频率，后采样用 weighted random。3. 扩展：结合 beam search 搜索多路径，选择最高概率序列，提升质量。4. 评估：人工审阅 100 样本，计算 BLEU 分数与参考文本相似度。风险包括生成重复或无意义文本，缓解通过过滤低概率路径。

总之，n-gram 马尔可夫链虽简单，却完美诠释了 autoregressive 生成的核心。通过实现它，我们不仅能快速构建文本工具，还能桥接到 LLM 的复杂世界。在 AI 系统设计中，这种基础模型仍用于快速原型或混合架构中，提供高效的 baseline。未来，可探索与神经模块的 hybrid，提升其在生产环境的应用。（字数：1028）