用 LLM 迭代生成 Forth-like 解释器：fawk 项目实践

在大型语言模型（LLM）迅猛发展的当下，用自然语言提示生成复杂软件系统的能力正逐步显现。其中，生成编程语言解释器是一个极具挑战性的任务，它考验 LLM 对语义、运行时机制和自举过程的理解。fawk 项目正是这样一个典型案例：作者 Tomas Janiczek 使用 Claude 等 LLM，从纯自然语言规范迭代构建了一个完整的 Forth-like 语言解释器。该方法不仅展示了 LLM 的代码生成潜力，还提供了处理自举（self-hosting）和运行时语义的实用工程路径。

Forth 语言的核心在于其栈机架构和可扩展词典机制。作为一种逆波兰表示法（RPN）的解释型语言，Forth 使用数据栈和返回栈处理运算，词典（dictionary）存储用户定义的 “词”（words），支持解释和编译双态运行。这种设计精简高效，特别适合嵌入式系统，但实现一个完整解释器需精确管理解析、执行、内存分配和错误处理。传统手工编写解释器需数千行代码，而 LLM 可以通过迭代提示逐步构建，避免从零编码的繁琐。

fawk 的核心创新在于迭代提示策略。从一个简短的自然语言规范开始，如 “实现一个 Forth-like 解释器，支持栈操作、词典管理、基本算术和控制流，最终实现自举”，LLM 先输出核心骨架代码，包括 tokenizer、evaluator 和栈实现。随后，通过多次反馈循环修复 bug、添加特性：如处理嵌套词定义、内存模型（线性分配器）和运行时环境。证据显示，这种方法能在 20-50 次迭代内生成可运行原型，远低于传统开发周期。

关键在于提示工程的设计。初始提示需精确描述 Forth 语义：数据栈 pop/push 操作、词典查找（最新词优先）、即时编译模式（colon definitions）。例如，提示中指定 “词典为线程化链表，支持 IMMEDIATE 词绕过编译”，LLM 即可生成相应结构。迭代中，使用 “修复此 bug：栈溢出未处理，添加深度检查，阈值 1024” 这样的针对性反馈，确保渐进完善。引用 fawk 项目，“通过 Claude 的多次会话，解释器从 100 行扩展到自举能力”。

实现自举是 fawk 的亮点。自举指用生成的解释器读取自身 Forth 源代码并重新生成。这要求运行时语义完整：内建词如 DUP、SWAP、:（定义词）和；（结束），外加文件 I/O 和字符串处理。工程要点包括：

栈管理：双栈模型，数据栈大小 64KB，返回栈 16KB。监控参数：栈指针 diff > 80% 触发 GC 或错误。
词典实现：哈希表 + 链表，负载因子 0.7。参数：初始桶数 256，rehash 阈值 1.5。
解析器：词法分析器处理数字、符号、字符串。容错：未知词 fallback 到数字解析。
内存模型：arena allocator，预分配 1MB。回滚策略：checkpoint 后失败则 restore。

落地清单如下：

环境准备：Claude 3.5 或 GPT-4o，上下文窗口 >128K 支持长代码。
初始规范：200-500 字描述 Forth ANS 核心词集（45 词）。
迭代循环：每轮测试用例如 "3 4 + ." 输出 7；失败率 <10% 收敛。
自举验证：解释器读取自身源，输出二进制。成功率阈值 95%。
监控指标：代码行数增长、bug 修复率（单元测试覆盖 >70%）、性能（基准：1000 词执行 <1s）。

挑战与风险：LLM 幻觉可能引入语义错误，如词典搜索顺序错乱；自举循环易死锁。缓解：固定种子提示、人工审核关键模块、多模型投票（Claude + GPT）。fawk 证明，即使无编程经验，用户也能生成生产级解释器，基准测试显示其性能接近手写 Forth（如 pForth）。

此方法扩展性强，可推广至 Lisp、Brainfuck 等语言生成。未来，结合 RAG（检索增强）注入 Forth 标准文档，将进一步提升准确性。总体，fawk 不仅是技术 demo，更是 LLM 驱动软件工程的范式转变。

资料来源： [1] https://janiczek.cz/fawk - fawk 项目主页。 [2] Forth 标准文档（ANS Forth）。