PyTorch 从零实现完整 GPT-like LLM:端到端训练与生成管道
使用 PyTorch 从头构建 GPT 风格 LLM,涵盖自定义 tokenizer、Transformer 解码器、数据处理、梯度累积训练循环及 KV 缓存生成,提供工程化参数与代码清单。
Page 769
共 17218 篇文章,分类 268 个。
近期的思考与工程笔记。
使用 PyTorch 从头构建 GPT 风格 LLM,涵盖自定义 tokenizer、Transformer 解码器、数据处理、梯度累积训练循环及 KV 缓存生成,提供工程化参数与代码清单。
Onyx 通过动态路由机制,根据成本、延迟和模型能力选择最佳 LLM,实现多提供商推理管道的平衡优化,提供工程化参数和监控要点。
通过分片技术在 Cloudflare Workers 中分布无服务器函数调用,实现负载均衡、预取热实例,并在边缘计算环境中达到 sub-100ms 冷启动延迟。
基于 Awesome LLM Apps 仓库,探讨模块化 RAG 管道与多代理编排的工程实践,实现企业级 AI 部署的可扩展性。
基准测试 Wildebeest 的模拟退火在大型 FPGA 设计中的性能,与 Yosys/VPR 比较运行时间、时序闭合和资源利用率,提供高性能合成流的可落地参数。
在 FedEx 的 hub-spoke 网络中,自动化分拣系统结合动态路由算法和输送机优化,实现每日 2000 万+ 包裹的高效处理,提供工程参数和实施要点。
比较 Rust 的所有权系统和 Send/Sync trait 与 Carbon 的仿射类型,在高性能并行系统中构建无锁并发数据结构的工程化参数与最佳实践。
利用 Rayon 框架构建 Typst 的并行布局系统,优化字形渲染与页面断行,实现 5 倍编译速度提升的关键参数与实践。
利用 JavaScript data URL 和 Braille 字符,在浏览器地址栏实现零 UI 贪吃蛇游戏,探讨编码机制与工程参数。
探讨高层次综合 (HLS) 如何将 C/C++ 算法转换为 FPGA RTL,重点介绍优化 passes 如流水线和数组分区,以及接口合成的工程实践。
在高密度 FPGA 设计中,通过自定义模拟退火算法集成拥塞感知布线策略,实现线长和时序违规的最小化,提供关键参数和落地清单。
探讨如何将开源 FPGA 合成工具 Wildebeest 集成到 CI/CD 流程中,支持 Verilog 到 bitstream 的自动化工作流,包括回归测试和设计空间探索,提供具体参数和最佳实践。
面向函数式语言移植,详解 WASM GC 在 Scheme 编译器中的应用,包括堆分配策略、尾递归转换和浏览器运行配置。
通过交互式工具可视化 zlib Deflate 压缩的核心阶段,包括 LZ77 字典匹配、Huffman 树构建和比特流编码,便于调试压缩算法。
基于开源 Wildebeest 工具,探讨时序驱动优化与 LUT 映射策略,在资源受限设计中提升 FPGA 性能与效率。