单GPU全精度训练百亿参数LLM:显存优化与计算调度工程实践
深度解析MegaTrain如何通过CPU内存作为主存储、GPU作为瞬态计算引擎,实现单卡训练120B参数大模型的核心技术与工程细节。
Page 2
共 16860 篇文章,分类 267 个。
近期的思考与工程笔记。
深度解析MegaTrain如何通过CPU内存作为主存储、GPU作为瞬态计算引擎,实现单卡训练120B参数大模型的核心技术与工程细节。
解析开源社区驱动的自治技能框架 Superpowers,剖析其如何通过结构化工作流与可组合技能系统,将 AI 编码工具塑造成遵循工程纪律的软件开发伙伴。
将传统白帽黑客的安全实践应用于氛围编程,通过隔离环境、密钥管理与代码审计,为 AI 生成代码建立防御纵深,提供可落地的工程参数与清单。
深入解析 Google AI Edge Gallery 的架构设计,探讨本地模型推理、跨用例快速切换与隐私保护的工程实践。
深入剖析音频响应LED灯带嵌入式系统中的硬实时约束:WS2812协议时序规范、音频缓冲延迟来源与视觉感知阈值的关系,给出工程化参数与设计建议。
深入解析WebUSB与USB/IP在浏览器内Linux虚拟机中的协同机制,提供遗留打印机复活的工程参数与配置建议。
深入解析基于 NVIDIA Warp 的 Newton 物理引擎,为机器人仿真提供硬件选型、环境配置与性能调优的工程化参数。
深入分析 DeepTutor 的 Agent 原生架构设计,探讨知识追踪、动态内容生成与个性化学习路径的核心实现机制。
深入解析Cloudflare在TLS握手中部署Kyber混合密钥封装的生产策略,提供可落地的延迟优化参数、向后兼容性配置与监控阈值清单。
解析Endbot等256字节MS-DOSintro如何实现完整Boss战斗体验,涉及汇编级字节压缩、程序化渲染管线与实时音频合成。
Railway 将前端从 Next.js 迁移至 Vite + TanStack Router,详解构建时间从 10+ 分钟降至 2 分钟以内的关键技术决策与迁移步骤。
深度解析 LLVM JSIR 的设计动因、SSA 构造策略以及在 JavaScript 编译器工具链中的集成路径,为前端工具链开发者提供可落地的工程参数。
Railway 团队将生产级前端从 Next.js 迁移至 Vite + TanStack Router,构建时间从 10 分钟压缩至 2 分钟以内。本文深入解析两阶段 PR 迁移策略、零停机部署细节与可复用的工程参数。
解析 LLVM 社区推进的 JSIR 如何通过 MLIR 实现无源码丢失的往返转换,并终结 JavaScript 工具链碎片化困境。
深入解析 LLM 爬虫 bot 大规模请求导致 HTTPS 服务器 TLS 握手过载的防御策略,提供边缘终止、连接限流、HAProxy 与 Nginx 配置清单。