消费级显卡上的大模型部署:Qwen3.5-27B 在 RTX 3090 上实现 207 tokens/s 的优化实践
深入解析在消费级 RTX 3090 上将 Qwen3.5-27B 推理吞吐量优化至 207 tokens/s 的工程路径,涵盖量化策略、批处理调度与 KV 缓存管理。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
深入解析在消费级 RTX 3090 上将 Qwen3.5-27B 推理吞吐量优化至 207 tokens/s 的工程路径,涵盖量化策略、批处理调度与 KV 缓存管理。
系统综述GPU渲染管线中的可见性剔除技术,涵盖视锥剔除、层级Z缓冲、门户剔除等工程实现与性能优化策略。
面向现代GPU渲染管线,深度解析Hi-Z遮挡剔除、两遍渲染策略、meshlet级裁剪与Nanite虚拟化几何体的工程实践与性能权衡。
探讨 Firefox 浏览器扩展通过原生消息机制实现 USB 设备通信的工程方案,对比 U2F 模拟路径的技术差异与安全权衡。
深入分析独立开发的 Kefir C17/C23 编译器前端架构设计,探讨其词法分析、语义处理与现代化 C 标准特性实现的工程实践。
深入解析流媒体平台如何通过音频指纹、声纹特征与大规模内容审核实现 AI 生成音乐的高效识别与管控。
深入解析 Kimi K2 的万亿参数 MoE 架构、代码生成能力与开源许可策略,为开发者提供部署参数与选型参考。
分析 Atlassian 于 2026 年 8 月生效的 AI 训练数据收集策略,解读元数据与应用内容的技术细节、分层退出机制及企业合规风险。
深入解析基于商品 WiFi CSI 信号的人体姿态估计系统,涵盖 WiFlow 模型架构、两种训练范式及边缘部署参数。
解析 Thunderbolt 作为本地化 AI 邮件客户端的架构设计,探讨多模型接入与数据不离开本地的工程实现路径。
ggsql 将 Grammar of Graphics 引入 SQL,允许用类 ggplot2 链式调用语法在数据库层面完成数据转换与可视化声明。
深入解析开源金融分析平台FinceptTerminal的市场数据流接入、实时分析引擎与Qt6交互式可视化架构的工程实践。
深入解析 OpenAI 官方多代理框架的 Handoffs 机制,对比两种编排模式并给出可落地的工程参数配置。
深入解析 OpenAI 官方多代理框架的 Handoffs 机制,对比两种编排模式并给出可落地的工程参数配置。
分析Grover算法对128位对称加密的平方根加速效应,厘清密钥空间缩减与实际攻击可行性的差距,给出工程化部署参数建议。
深度解析 RuView 项目中 Rust 底层性能优化技术,聚焦 SIMD 矢量加速、内存布局与 Cache 行对齐,为边缘设备 60fps 实时推理提供可复现参数阈值。
探讨如何借鉴ggplot2的图形语法思想,构建声明式SQL查询管道,实现可组合、可复用的数据查询层。
解析 SDF 这台自 1987 年运行至今的公共 Unix 访问系统,探讨其多用户终端架构、NetBSD 集群设计及 30 多年持续运营背后的工程挑战。
解析Linux内核消息队列peek操作、io_uring与bus1三种IPC机制的协同设计,探讨内核级零拷贝通信的实现路径。
通过 HID 协议伪装将自定义 USB 设备模拟为 U2F 安全密钥,实现 Firefox 对 WebUSB 设备的访问控制与固件解析。