从零构建 MiniMind 26M GPT 的 PyTorch 训练循环:梯度累积与混合精度优化
面向消费级 GPU,介绍高效自定义训练循环,支持 2 小时内完成 26M 参数 GPT 模型训练,重点优化梯度累积、混合精度和数据加载。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
面向消费级 GPU,介绍高效自定义训练循环,支持 2 小时内完成 26M 参数 GPT 模型训练,重点优化梯度累积、混合精度和数据加载。
在对话 AI 系统中集成 Claude Tool Use API,聚焦多轮工具链、状态管理和错误恢复,提供工程化参数与最佳实践。
探讨语法高亮如何浪费视觉信息通道,并提出使用控制流图等语义可视化来降低开发者认知负载的工程化方案,包括参数配置与监控要点。
面向 SWE-Grep 的多模型流式输出,给出 RL 驱动检索的缓存管理和去重工程化参数与监控要点。
面向 PDF 文档处理,给出基于 iTextSharp 的 C# 应用开发指南,包括书签编辑、页面操作、DRM 移除等功能实现。
探讨Qwen3-VL中使用交错分词、位置嵌入和跨模态注意力机制实现视觉-语言grounding的工程方法,提供图像-文本对齐的关键参数与实践清单。
在 QBasic 中实现大型文本冒险游戏引擎,聚焦高效命令解析、动态房间链接和状态管理,优化 1980 年代硬件约束。
针对 Claude Tool Use API 在生产 AI agents 中的应用,提供运行时输入验证、错误恢复机制及安全工具链的参数配置与监控要点,提升系统可靠性和安全性。
针对 Gemini 3.0 的生产 rollout,探讨 A/B 测试管道的构建,重点包括流量分割策略、实时推理监控要点,以及 fallback 机制,确保模型稳定暴露。
探讨 Waymo 自动驾驶车队与 DoorDash 物流系统的 API 集成,实现实时订单分配、动态路由、安全交接和错误恢复的工程参数与协议。
通过 Anthropic 的 Jupyter 教程框架,构建掌握 Claude 模型 CoT 推理、few-shot 任务适应和 XML 结构化输出的互动练习,提供工程化参数与最佳实践。
基于意外调试洞见,探讨 Zig dotenv 解析器的多行支持、插值机制与内存优化,提供实用参数和清单。
通过 Kiro 生成可执行 API 规范,并利用 Tessl 进行形式属性验证,集成到 CI/CD 管道中自动化合同测试,提升微服务互操作性。
面向 Go 实现的 Datadog Agent,给出 DogStatsD 指标摄取、自定义检查插件开发及 Kubernetes 集成的工程化参数与监控要点。
探讨 EXO 1.0 在 Nvidia DGX Spark 和 Apple Mac Studio 上优化 LLM 推理的策略,实现 2.8 倍速度提升和低延迟服务。
探讨初始数据模型的设计策略,以支持业务演化和 schema 变更,减少迁移成本。通过 NoSQL 灵活性和最佳实践,提供可落地参数和清单。
Inkeep YC 支持的平台中,工程化视觉拖拽和代码接口构建 AI 代理的实践,包括 RAG 检索、工具集成及多模态处理参数。
基于交互式教程,指导构建 Jupyter notebooks 来实践提示工程核心技术,实现 AI 开发中 LLM 的可重现交互与高效工作流。
针对 SWE-Grep 的 RLHF 数据集工程实践,包括平衡代码检索样本的 curation、人类反馈循环的整合,以及去重技术以实现稳定多轮训练。
在服务网格中配置 Envoy 的动态路由、观测性指标以及 HTTP/2 gRPC 支持,提供高性能边缘代理的工程参数和监控要点。