通过 PCIe BAR MMIO 实现 NVMe 直连 GPU:70B 模型单卡推理的工程细节
解析 GPU 直接发起 NVMe 读操作的 PCIe 拓扑、设备映射与 BAR0 MMIO 编程模型,给出 70B 模型在单 RTX 3090 上流式推理的工程参数。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
解析 GPU 直接发起 NVMe 读操作的 PCIe 拓扑、设备映射与 BAR0 MMIO 编程模型,给出 70B 模型在单 RTX 3090 上流式推理的工程参数。
对比验证优先与解析优先在 Rust 类型系统中的工程实践,结合具体代码案例分析 Err 降级与类型守卫的风格差异与适用场景。
解析 Andrej Karpathy 提出的 Claws 架构:LLM Agent 的新型工具调用层设计与实现路径,探讨三层 AI 栈中的持久化基础设施层。
深入解析 Hugging Face Skills 框架的技能定义格式、版本化管理与多平台分发机制,为工程团队提供可复用的 AI Agent 能力仓库设计参考。
深入解析 Taalas 将 LLM 权重直接蚀刻到晶体管的物理实现工艺、单晶体管权重存储架构的工程挑战与量产可行性。
深度解析2025年AI系统领域的核心技术趋势,涵盖智能体架构、多模型编排、RAG 2.0与边缘计算等关键方向,提供可落地的工程实践参数与选型建议。
深度解析 bootable containers 安全运行时隔离模型,对比传统容器沙箱在内核级工程实现上的差异与安全边界。
深入解析如何使用 CSS 3D transform 构建可交互的麻将游戏场景,涵盖坐标系统、深度渲染、相机控制与性能优化等工程实践要点。
探讨 local-first 软件范式下 Linux MicroVM 的工程化设计路径,涵盖离线优先数据同步机制、本地虚拟磁盘架构以及与 macOS Hypervisor 框架的整合实践。
以 Pinterest 平台为案例,解析 AI 生成内容洪流下自动审核系统的工程化应对方案,包括多级审核管线、上下文分类与反馈循环设计。
深入解析VS Code扩展开发中最近文件追踪的技术实现,包含工作区上下文感知、MRU列表管理与QuickPick交互设计。
探索仅写代码反模式在现代AI辅助编程中的放大效应,剖析工程团队应对维护成本上升的实战策略。
基于 Volatility 框架的内存取证完整流水线,涵盖镜像获取、操作系统识别、证据提取的工程化实践与关键参数。
深入解析 Stremio Web 的 JavaScript 客户端架构,探讨 React 前端与 stremio-core (WASM) 的协作模式及 HTML5 播放器实现细节。
基于 Quesma BinaryAudit 基准测试,探讨 AI 代理配合 Ghidra 检测二进制后门的工程化参数、检测阈值与实际局限性。
深入解析 OpenBB 金融平台如何通过 Transform-Extract-Transform 数据管道实现标准化,并通过 AI SDK 与 Workspace 协议为量化分析提供结构化市场数据访问能力。
深入解析 Rust 里 Parse Don't Validate 模式的工程实现,通过类型构造与约束验证的提前合并,避免先解析后验证的二次开销,并给出可落地的参数配置与边界处理建议。
深入解析 Stripe Minions 的核心架构,探讨如何通过蓝图工作流与确定性门控实现单次执行完成复杂编码任务。
解析 Robert J. Lang 的 ReferenceFinder 如何利用七条 Huzita-Justin 折纸公理,通过计算几何搜索算法实现任意目标坐标的折叠序列生成。
深入解析基于 Python 的开源内存取证框架 Volatility 3 的插件系统设计与内存镜像解析工程化流程。