从零构建AI工程能力：435课时的端到端教育框架实践

碎片化学习的困境与出路

当前 AI 工程教育存在一个普遍问题：知识呈碎片化分布。论文在这里，微调教程在那里， flashy 的 Agent 演示又在别处。学习者可能成功部署了一个聊天机器人，却无法解释其损失曲线；可能为 Agent 接入了函数调用，却不理解模型内部注意力机制的工作原理。这种 "知其然不知其所以然" 的状态，在模型快速迭代的今天尤为危险 —— 当底层技术发生范式转移时，缺乏根基的工程实践将难以迁移。

AI Engineering from Scratch 正是针对这一痛点设计的开源教育框架。该项目由 Rohit Ghumare 发起并维护，采用 MIT 许可，完全免费。整个课程体系包含 435 节课、20 个阶段，预计学习时长约 320 小时，覆盖 Python、TypeScript、Rust、Julia 四种编程语言。其核心理念是 "先理解底层数学，再使用框架"—— 在引入 PyTorch 之前，学习者已经亲手实现了反向传播、Tokenizer、注意力机制等核心算法。

20 阶段分层架构：从线性代数到自主智能体

该框架采用严格的层级递进设计，数学基础是地基，Agent 与生产部署是屋顶。20 个阶段依次为：

Phase 0-1（基础层）：环境搭建与数学基础（线性代数、微积分、概率论、优化算法）
Phase 2-3（机器学习层）：经典机器学习与深度学习核心（感知机、反向传播、激活函数、优化器）
Phase 4-6（模态层）：计算机视觉、自然语言处理、语音与音频处理
Phase 7-10（架构层）：Transformer 深度解析、生成式 AI、强化学习、从零构建 LLM
Phase 11-16（工程层）：LLM 工程、多模态 AI、工具与协议、Agent 工程、自主系统、多 Agent 与群体智能
Phase 17-19（生产层）：基础设施与生产部署、伦理安全与对齐、毕业项目

每个阶段都有明确的前置依赖。例如，Phase 7（Transformers）依赖 Phase 3（深度学习核心）和 Phase 5（NLP）；Phase 14（Agent 工程）依赖 Phase 10（LLM 从零构建）和 Phase 11（LLM 工程）。这种设计强制学习者建立完整的知识图谱，避免 "跳级" 导致的理解断层。

Build It / Use It / Ship It：六步学习循环

每节课遵循固定的六步结构：

MOTTO：一句话概括核心理念
PROBLEM：定义具体的工程痛点
CONCEPT：图表与直觉层面的概念解释
BUILD IT：从零实现，不依赖任何框架
USE IT：用 PyTorch/sklearn 等生产框架实现相同功能
SHIP IT：产出可复用的 Prompt、Skill、Agent 或 MCP Server

这种 "Build It / Use It" 的分界点是该框架的关键创新。通过先手写算法再使用框架，学习者能够真正理解框架在底层做了什么。当遇到训练不稳定或推理异常时，这种底层直觉将成为调试的关键能力。

每节课的产出物存放在 phases/<NN>-<phase-name>/<NN>-<lesson-name>/outputs/ 目录下，包含可直接投入生产的工具。例如 Phase 14 第 1 课（Agent 循环）会产出 skill-agent-loop.md 和 prompt-debug-agent.md，前者可作为 Claude、Cursor 等 Agent 的技能文件，后者可用于调试 Agent 执行轨迹。

评估体系：定位测试与阶段测验

框架内置了两层评估机制：

入口评估：/find-your-level 技能通过 10 道问题评估学习者的当前水平，映射到建议的起始阶段，并生成个性化的学习路径与时间估算。例如，有 Python 基础但无 ML 经验的学习者可直接从 Phase 1（数学基础）开始，预计节省约 36 小时；资深工程师只想学习 Agent 工程则可从 Phase 14 切入，预计 60 小时完成。

过程评估：/check-understanding <phase> 为每个阶段提供 8 道测验题，附带详细反馈和需要复习的具体课程。这种设计确保学习者在进入下一阶段前已牢固掌握当前内容。

此外，每节课的产出物本身就是一种验证 —— 如果无法产出一个可用的 Prompt 或 Skill，说明对该课内容的理解尚不到位。

生产部署路径：从提示工程到基础设施

对于关注生产落地的学习者，框架在 Phase 11、Phase 17 和 Phase 19 提供了完整的能力建设路径：

Phase 11：LLM 工程（17 课） 涵盖提示工程技术、Few-Shot/CoT/Tree-of-Thought 模式、结构化输出、Embedding 与向量表示、上下文工程、RAG 与高级 RAG、LoRA/QLoRA 微调、函数调用、评估与测试、缓存与限流成本控制、安全防护栏、生产级 LLM 应用构建、MCP 协议、提示缓存、LangGraph 状态机等。

Phase 17：基础设施与生产（28 课） 覆盖托管 LLM 平台（Bedrock、Azure OpenAI、Vertex AI）、推理平台经济学、GPU 自动扩缩容、vLLM 内部机制（PagedAttention、Continuous Batching）、EAGLE-3 投机解码、SGLang 前缀缓存、TensorRT-LLM 量化、推理指标（TTFT、TPOT、ITL、Goodput）、生产量化（AWQ、GPTQ、GGUF、FP8）、冷启动缓解、多区域部署、边缘推理、LLM 可观测性栈、批量 API、模型路由、预填充 / 解码分离、AI 网关、影子部署与金丝雀发布、A/B 测试、负载测试、SRE 与混沌工程、安全与合规（SOC 2、GDPR、EU AI Act）、LLM FinOps 等。

Phase 19：毕业项目（17 个） 每个项目 20-40 小时，端到端可交付。包括：终端原生编码 Agent、跨代码库语义搜索 RAG、实时语音助手、多模态文档问答、自主研究 Agent、Kubernetes 故障排查 Agent、端到端微调流水线、生产级 RAG 聊天机器人、代码迁移 Agent、多 Agent 软件工程团队、LLM 可观测性仪表板、视频理解流水线、MCP Server 与治理注册中心、投机解码推理服务器、宪法安全框架 + 红队测试场、GitHub Issue 到 PR 自主 Agent、个人 AI 导师。

可落地的学习参数

根据框架提供的时间估算，不同背景的学习者可选择以下路径：

背景	起始阶段	预计时长
编程与 AI 零基础	Phase 0	~306 小时
会 Python，无 ML 经验	Phase 1	~270 小时
懂 ML，无深度学习经验	Phase 3	~200 小时
懂深度学习，想学 LLM 与 Agent	Phase 10	~100 小时
资深工程师，只学 Agent 工程	Phase 14	~60 小时

课程产出物可通过 python3 scripts/install_skills.py 安装到 Claude、Cursor、Codex 等 Agent 中，实现 "学习即生产" 的闭环。Phase 14 的 Agent Workbench 还可通过 python3 scripts/scaffold_workbench.py 脚手架到任意代码库，直接投入实际项目使用。

局限与建议

该框架目前仍在积极开发中，部分课程内容尚未完成。此外，完整学习路径对数学基础要求较高（线性代数、微积分、概率论），零基础学习者需要投入额外时间补足前置知识。

建议学习者采用 "产出驱动" 策略：不必等待全部 435 节课完成，而是根据当前工作需求选择特定阶段深入，将每节课的产出物直接应用于实际项目，在实践中验证和巩固所学。

资料来源

AI Engineering from Scratch — 主站
GitHub: rohitg00/ai-engineering-from-scratch — 开源仓库

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。