2025年10月14日 ai-systems

从零构建百元级 ChatGPT：Andrej Karpathy 的 NanoChat 实战指南

基于 Andrej Karpathy 的 NanoChat 项目，本文提供一份从零开始构建一个小型 ChatGPT 系统的实战指南，覆盖了从数据准备、模型训练到在 100 美元预算内完成部署的全过程。

内容加载中...

在大型语言模型（LLM）动辄需要数百万美元训练成本的时代，Andrej Karpathy 的最新开源项目 NanoChat 如同一股清流，提出了一个极具吸引力的主张：用 100 美元预算，构建一个属于你自己的、功能完备的类 ChatGPT 系统。这不仅是一个引人注目的技术挑战，更是为广大开发者和研究者提供了一个绝佳的、可上手的 LLM 全流程实践平台。

本文将作为一份详尽的实战指南，引导你走完从零开始构建、训练、部署一个小型 LLM 的全过程，让你在有限的预算内，亲手揭开 LLM 的神秘面纱。

NanoChat：不止于代码，更是一种学习范式

NanoChat 并非又一个复杂的 LLM 框架。恰恰相反，它是一个单一、简洁、代码最少化且极易改造的“全栈”代码库。其核心设计理念是提供一个透明的、端到端的强基线，覆盖了从数据处理、模型训练到Web界面交互的每一个环节。

该项目的“全栈”特性包括：

数据准备：包括分词（Tokenization）和数据集的处理。
模型训练：覆盖了预训练（Pretraining）和指令微调（Finetuning）。
评估与推理：内置了评估脚本，并能生成详尽的“成绩单”。
部署与交互：提供了一个简单的 Web UI，让你能像使用 ChatGPT 一样与自己训练的模型对话。

这种端到端的透明度，使得 NanoChat 成为一个理想的教学工具。你可以清晰地看到每个阶段的输入、输出和具体实现，而不是被隐藏在庞大框架的抽象接口之后。

百元预算“速通”：4小时训练你的第一个模型

NanoChat 最吸引人的莫过于其 speedrun.sh 脚本，它被设计用于在 4 小时内，花费约 100 美元的计算资源（基于 8xH100 GPU 节点），完成一个小型模型的完整训练周期。

1. 环境准备

首先，你需要一个合适的计算环境。官方推荐使用提供 8xH100 GPU 节点的云服务商（如 Lambda Labs）。当然，该项目也具有良好的向下兼容性。

克隆仓库：git clone https://github.com/karpathy/NanoChat.git
设置虚拟环境：项目推荐使用 uv 来管理依赖，确保一个干净的 Python 环境。
会话管理：由于训练过程长达数小时，强烈建议在 screen 或 tmux 会话中运行，以防 SSH 连接中断。

启动一个持久化的日志会话：

screen -L -Logfile speedrun.log -S speedrun

2. 执行 `speedrun.sh`

在 screen 会话中，直接执行核心脚本：

bash speedrun.sh

这个脚本会自动处理所有事情：下载数据集、编译和运行 Rust 实现的 BPE 分词器、执行 PyTorch 训练任务（包括预训练和微调），最后完成评估。你可以在 speedrun.log 文件中实时监控进度。

3. 部署与交互

训练完成后，你的项目目录下会生成模型权重和一份 report.md 评估报告。现在，是时候与你的“孩子”对话了。

确保你的 Python 虚拟环境已激活，然后启动 Web 服务：

python -m scripts.chat_web

该命令会启动一个本地 Web 服务器。你需要通过云主机的公网 IP 地址和指定的端口（例如 http://<your_public_ip>:8000）来访问这个界面。现在，你可以向它提问、让它写诗，或者测试它的“幻觉”。尽管这个百元模型的能力有限（Karpathy 形容其如同“幼儿园小朋友”），但它确确实实是你亲手创造的。

理解你的模型：解读 `report.md`

speedrun.sh 脚本运行结束后，生成的 report.md 文件是理解模型能力的关键。这份报告详细记录了模型在多个行业标准基准测试（如 MMLU、GSM8K、HumanEval）上的表现。通过这份报告，你可以量化地看到从预训练基座模型（BASE）到指令微调后（SFT）的性能提升，直观地感受到训练过程带来的价值。

超出百元预算：如何扩展与调整

NanoChat 的魅力不止于百元实验。项目本身就为希望投入更多资源、训练更强模型的用户提供了明确的指导。

1. 训练更大规模的模型

如果你希望训练一个性能媲美 GPT-2 的模型（约 300 美元预算），只需对 speedrun.sh 脚本做几处简单修改：

增加数据分片：为更大模型准备更多的训练数据，避免在小数据集上过度重复。
增加模型深度：通过调整 depth 参数来扩大模型规模。
调整设备批量大小：为防止显存溢出（OOM），在增大模型时需要相应地减小 device_batch_size。脚本会自动通过梯度累积来补偿，确保训练效果的一致性。

2. 适应不同硬件环境

NanoChat 具有出色的灵活性，可以适应不同的硬件配置：

单 GPU 训练：只需去掉 torchrun 命令，脚本会自动切换到单 GPU 模式，并通过梯度累积模拟多 GPU 环境，但耗时会相应增加。
小显存 GPU：如果你的 GPU 显存小于 80GB，关键在于不断调低 --device_batch_size 参数（例如从 32 降至 16、8、4、...），直到模型能顺利载入显存。这是在资源受限环境下完成训练的最直接有效的方法。

结论：在亲手构建中学习

NanoChat 的真正价值，不在于挑战 SOTA（State-of-the-art）模型的性能，而在于它将 LLM 的构建过程“祛魅”，使其成为个人开发者和小型团队可以触及和实践的技术。它通过一个具体的、可复现的、经济上可行的路径，鼓励人们动手实践，从而深刻理解数据、算法和算力在模型能力形成过程中的相互作用。

正如 Karpathy 在项目中所强调的，NanoChat 追求的是一个“可读、可修改、可复刻”的强基线。无论你是希望进入 LLM 领域的新手，还是寻求深度理解模型内部机制的资深工程师，这个“百元 ChatGPT”项目都为你提供了一张不可多得的入场券。