Hotdry.

Article

从零构建AI工程能力:435课时的端到端教育框架实践

解析AI Engineering from Scratch开源课程框架,涵盖20阶段学习路径、Build-Use-Ship方法论,以及从数学基础到生产部署的完整能力体系。

2026-05-23ai-systems

碎片化学习的困境与出路

当前 AI 工程教育存在一个普遍问题:知识呈碎片化分布。论文在这里,微调教程在那里, flashy 的 Agent 演示又在别处。学习者可能成功部署了一个聊天机器人,却无法解释其损失曲线;可能为 Agent 接入了函数调用,却不理解模型内部注意力机制的工作原理。这种 "知其然不知其所以然" 的状态,在模型快速迭代的今天尤为危险 —— 当底层技术发生范式转移时,缺乏根基的工程实践将难以迁移。

AI Engineering from Scratch 正是针对这一痛点设计的开源教育框架。该项目由 Rohit Ghumare 发起并维护,采用 MIT 许可,完全免费。整个课程体系包含 435 节课、20 个阶段,预计学习时长约 320 小时,覆盖 Python、TypeScript、Rust、Julia 四种编程语言。其核心理念是 "先理解底层数学,再使用框架"—— 在引入 PyTorch 之前,学习者已经亲手实现了反向传播、Tokenizer、注意力机制等核心算法。

20 阶段分层架构:从线性代数到自主智能体

该框架采用严格的层级递进设计,数学基础是地基,Agent 与生产部署是屋顶。20 个阶段依次为:

  • Phase 0-1(基础层):环境搭建与数学基础(线性代数、微积分、概率论、优化算法)
  • Phase 2-3(机器学习层):经典机器学习与深度学习核心(感知机、反向传播、激活函数、优化器)
  • Phase 4-6(模态层):计算机视觉、自然语言处理、语音与音频处理
  • Phase 7-10(架构层):Transformer 深度解析、生成式 AI、强化学习、从零构建 LLM
  • Phase 11-16(工程层):LLM 工程、多模态 AI、工具与协议、Agent 工程、自主系统、多 Agent 与群体智能
  • Phase 17-19(生产层):基础设施与生产部署、伦理安全与对齐、毕业项目

每个阶段都有明确的前置依赖。例如,Phase 7(Transformers)依赖 Phase 3(深度学习核心)和 Phase 5(NLP);Phase 14(Agent 工程)依赖 Phase 10(LLM 从零构建)和 Phase 11(LLM 工程)。这种设计强制学习者建立完整的知识图谱,避免 "跳级" 导致的理解断层。

Build It / Use It / Ship It:六步学习循环

每节课遵循固定的六步结构:

  1. MOTTO:一句话概括核心理念
  2. PROBLEM:定义具体的工程痛点
  3. CONCEPT:图表与直觉层面的概念解释
  4. BUILD IT:从零实现,不依赖任何框架
  5. USE IT:用 PyTorch/sklearn 等生产框架实现相同功能
  6. SHIP IT:产出可复用的 Prompt、Skill、Agent 或 MCP Server

这种 "Build It / Use It" 的分界点是该框架的关键创新。通过先手写算法再使用框架,学习者能够真正理解框架在底层做了什么。当遇到训练不稳定或推理异常时,这种底层直觉将成为调试的关键能力。

每节课的产出物存放在 phases/<NN>-<phase-name>/<NN>-<lesson-name>/outputs/ 目录下,包含可直接投入生产的工具。例如 Phase 14 第 1 课(Agent 循环)会产出 skill-agent-loop.mdprompt-debug-agent.md,前者可作为 Claude、Cursor 等 Agent 的技能文件,后者可用于调试 Agent 执行轨迹。

评估体系:定位测试与阶段测验

框架内置了两层评估机制:

入口评估/find-your-level 技能通过 10 道问题评估学习者的当前水平,映射到建议的起始阶段,并生成个性化的学习路径与时间估算。例如,有 Python 基础但无 ML 经验的学习者可直接从 Phase 1(数学基础)开始,预计节省约 36 小时;资深工程师只想学习 Agent 工程则可从 Phase 14 切入,预计 60 小时完成。

过程评估/check-understanding <phase> 为每个阶段提供 8 道测验题,附带详细反馈和需要复习的具体课程。这种设计确保学习者在进入下一阶段前已牢固掌握当前内容。

此外,每节课的产出物本身就是一种验证 —— 如果无法产出一个可用的 Prompt 或 Skill,说明对该课内容的理解尚不到位。

生产部署路径:从提示工程到基础设施

对于关注生产落地的学习者,框架在 Phase 11、Phase 17 和 Phase 19 提供了完整的能力建设路径:

Phase 11:LLM 工程(17 课) 涵盖提示工程技术、Few-Shot/CoT/Tree-of-Thought 模式、结构化输出、Embedding 与向量表示、上下文工程、RAG 与高级 RAG、LoRA/QLoRA 微调、函数调用、评估与测试、缓存与限流成本控制、安全防护栏、生产级 LLM 应用构建、MCP 协议、提示缓存、LangGraph 状态机等。

Phase 17:基础设施与生产(28 课) 覆盖托管 LLM 平台(Bedrock、Azure OpenAI、Vertex AI)、推理平台经济学、GPU 自动扩缩容、vLLM 内部机制(PagedAttention、Continuous Batching)、EAGLE-3 投机解码、SGLang 前缀缓存、TensorRT-LLM 量化、推理指标(TTFT、TPOT、ITL、Goodput)、生产量化(AWQ、GPTQ、GGUF、FP8)、冷启动缓解、多区域部署、边缘推理、LLM 可观测性栈、批量 API、模型路由、预填充 / 解码分离、AI 网关、影子部署与金丝雀发布、A/B 测试、负载测试、SRE 与混沌工程、安全与合规(SOC 2、GDPR、EU AI Act)、LLM FinOps 等。

Phase 19:毕业项目(17 个) 每个项目 20-40 小时,端到端可交付。包括:终端原生编码 Agent、跨代码库语义搜索 RAG、实时语音助手、多模态文档问答、自主研究 Agent、Kubernetes 故障排查 Agent、端到端微调流水线、生产级 RAG 聊天机器人、代码迁移 Agent、多 Agent 软件工程团队、LLM 可观测性仪表板、视频理解流水线、MCP Server 与治理注册中心、投机解码推理服务器、宪法安全框架 + 红队测试场、GitHub Issue 到 PR 自主 Agent、个人 AI 导师。

可落地的学习参数

根据框架提供的时间估算,不同背景的学习者可选择以下路径:

背景 起始阶段 预计时长
编程与 AI 零基础 Phase 0 ~306 小时
会 Python,无 ML 经验 Phase 1 ~270 小时
懂 ML,无深度学习经验 Phase 3 ~200 小时
懂深度学习,想学 LLM 与 Agent Phase 10 ~100 小时
资深工程师,只学 Agent 工程 Phase 14 ~60 小时

课程产出物可通过 python3 scripts/install_skills.py 安装到 Claude、Cursor、Codex 等 Agent 中,实现 "学习即生产" 的闭环。Phase 14 的 Agent Workbench 还可通过 python3 scripts/scaffold_workbench.py 脚手架到任意代码库,直接投入实际项目使用。

局限与建议

该框架目前仍在积极开发中,部分课程内容尚未完成。此外,完整学习路径对数学基础要求较高(线性代数、微积分、概率论),零基础学习者需要投入额外时间补足前置知识。

建议学习者采用 "产出驱动" 策略:不必等待全部 435 节课完成,而是根据当前工作需求选择特定阶段深入,将每节课的产出物直接应用于实际项目,在实践中验证和巩固所学。

资料来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com