Z80-μLM指令级并行与中断驱动推理流水线设计

在 4MHz 的 8 位 Z80 处理器上运行语言模型，听起来像是技术考古学的行为艺术。然而，Z80-μLM 项目不仅实现了这一看似不可能的任务，更通过精妙的指令级并行优化和中断驱动的推理流水线设计，在 1976 年的硬件上创造了实时对话 AI 的奇迹。本文将从硬件微架构角度，深入分析这一技术壮举的实现细节。

Z80 架构的先天限制与推理挑战

Z80 作为一款经典的 8 位微处理器，其架构特点决定了现代 AI 推理的极端挑战：

时钟频率限制：4MHz 主频意味着每秒 400 万次时钟周期，与现代 GHz 级处理器相差三个数量级
寄存器资源稀缺：主寄存器组仅包含 A、B、C、D、E、H、L 等 8 位寄存器，以及 16 位寄存器对 HL、DE、BC
无硬件乘法器：所有乘法运算必须通过软件实现，通常需要数十个时钟周期
内存带宽瓶颈：64KB 地址空间，访问速度受限于内存时序

Z80-μLM 采用 2 位量化权重，每个权重仅占用 2 比特，打包后每字节存储 4 个权重。这种极端的量化策略是应对硬件限制的必然选择，但也带来了新的挑战：如何在有限的时钟周期内完成数十万次的乘积累加运算？

指令级并行优化策略

虽然 Z80 缺乏现代 CPU 的乱序执行和超标量流水线，但通过精心设计的指令序列，仍可实现一定程度的指令级并行：

1. 寄存器对的高效利用

Z80 的 16 位寄存器对（HL、DE、BC）是性能优化的关键。在推理循环中，这些寄存器对承担着不同的职责：

; HL: 累加器，存储16位中间结果
; DE: 激活值寄存器
; BC: 循环计数器或地址指针

通过合理安排寄存器使用，可以减少内存访问次数。例如，在乘积累加循环中，将权重和激活值预加载到寄存器中，避免每次循环都访问内存。

2. 条件分支的预测优化

Z80 的条件分支指令（jr、jp）执行时间较长。通过重构循环结构，减少分支频率：

; 传统循环：每次迭代检查条件
LOOP_START:
    ; 处理逻辑
    djnz LOOP_START  ; B减1，非零则跳转

; 优化后的展开循环：减少分支开销
    rept 4
    ; 处理逻辑×4
    endm
    djnz LOOP_START

3. 内存访问的局部性优化

Z80 的内存访问模式对性能影响显著。通过将频繁访问的数据（如权重矩阵）放置在连续内存区域，利用 Z80 的块传输指令（ldir、lddr）提高数据吞吐量。

中断驱动的推理流水线设计

中断机制是 Z80 实现实时响应的关键。Z80-μLM 通过中断驱动的流水线设计，将推理任务分解为可中断的微操作：

1. 中断模式选择与配置

Z80 支持三种中断模式，Z80-μLM 选择模式 2（IM2）实现向量化中断：

; 设置中断向量表
ld a, VECTOR_TABLE_HIGH
ld i, a
im 2
ei  ; 启用中断

模式 2 允许每个中断源有独立的中断服务程序入口地址，适合多阶段推理流水线。

2. 推理阶段的中断划分

将完整的推理过程划分为多个可中断阶段：

输入预处理阶段：Trigram 哈希计算，可被高优先级 I/O 中断抢占
前向传播阶段：分层计算，每层完成后产生中断进行中间结果检查
输出生成阶段：字符级自回归生成，每个字符生成后产生中断

3. 中断服务程序的寄存器管理

Z80 提供备用寄存器组（A'、B'、C' 等），中断服务程序可快速切换寄存器组，减少上下文保存开销：

INTERRUPT_HANDLER:
    ex af, af'     ; 交换AF与AF'
    exx           ; 交换BC、DE、HL与BC'、DE'、HL'
    ; 使用备用寄存器组处理中断
    ; ...
    exx
    ex af, af'
    reti          ; 从中断返回

寄存器分配策略与性能调优

1. 静态寄存器分配

在编译时确定每个变量的寄存器分配，避免运行时寄存器溢出：

全局累加器：HL 寄存器对，专用于乘积累加结果
权重指针：IX 寄存器，指向当前权重块
激活值指针：IY 寄存器，指向激活值数组
循环计数器：B 寄存器，用于内层循环

2. 动态寄存器重命名

对于复杂的计算图，采用动态寄存器重命名策略：

; 阶段1：使用HL作为累加器
ld hl, 0
; ... 计算阶段1

; 阶段2：将结果转移到DE，释放HL用于新计算
ld de, hl
ld hl, 0
; ... 计算阶段2

3. 内存 - 寄存器平衡策略

在有限的寄存器资源和内存访问开销之间寻找平衡点：

数据类型	存储位置	访问频率	优化策略
当前层权重	寄存器	高	预加载到寄存器对
下一层权重	缓存区	中	使用块传输指令预取
激活值	内存数组	高	保持指针在寄存器中
中间结果	寄存器	极高	优先分配寄存器

可落地的性能参数与监控指标

1. 关键性能参数

推理延迟：单个字符生成时间 ≤ 500ms（4MHz 下）
中断响应时间：最高优先级中断响应 ≤ 10μs
内存带宽利用率：≥ 80% 的有效内存访问
寄存器利用率：主寄存器组使用率 ≥ 90%

2. 实时监控点

中断频率监控：记录各优先级中断的发生频率
流水线停顿检测：监控推理阶段间的等待时间
寄存器溢出计数：统计寄存器到内存的溢出次数
缓存命中率：权重预取缓存的有效性评估

3. 调优检查清单

中断服务程序执行时间 ≤ 100 时钟周期
关键循环展开 4-8 次
权重数据按 4 字节对齐存储
使用 Z80 的块指令进行数据搬移
备用寄存器组用于高频中断处理
中断嵌套深度限制在 2 层以内

技术局限与未来优化方向

1. 当前架构限制

中断开销累积：频繁中断导致整体吞吐量下降
寄存器竞争：复杂模型导致寄存器分配冲突
内存碎片化：动态权重加载可能破坏局部性

2. 硬件协同优化

考虑与现代外设的协同设计：

DMA 辅助数据传输：使用 Z80 的 DMA 控制器减少 CPU 负担
协处理器扩展：通过总线扩展专用计算单元
缓存层次优化：增加片上 SRAM 作为权重缓存

3. 算法 - 架构协同设计

稀疏化推理：利用 Z80 的位操作指令加速稀疏矩阵计算
动态精度调整：根据层重要性调整量化精度
流水线重组：基于实际负载动态调整流水线阶段

结语

Z80-μLM 在 4MHz 古董处理器上实现实时对话 AI，不仅是技术怀旧，更是对计算本质的深刻探索。通过极致的指令级优化和精妙的中断驱动流水线设计，该项目证明了即使在最受限的硬件环境下，智能计算仍然可能。

正如项目作者所言："它不会通过图灵测试，但可能会让你在绿色屏幕前微笑。" 这种在限制中创造可能性的精神，正是技术创新的核心动力。在当今追求更大模型、更多参数的时代，Z80-μLM 提醒我们：效率、优雅和创造力，有时比原始计算能力更为重要。

资料来源：

Z80-μLM GitHub 仓库：https://github.com/HarryR/z80ai
Z80 Family Interrupt Structure 文档：https://www.z80.info/1653.htm
Zilog Z80-CPU Technical Manual