verl 离线 RLHF 工具包:PPO 正则化、KL 散度控制与多 GPU 训练
面向大模型对齐,详解 verl 中 PPO+KL 的离线 RLHF 配置、多 GPU 训练参数与生产监控要点。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
面向大模型对齐,详解 verl 中 PPO+KL 的离线 RLHF 配置、多 GPU 训练参数与生产监控要点。
Gemini CLI 支持状态会话、多工具调用与 ReAct 循环,助力代码迭代精炼与调试管道工程化。
详解 Copyparty 单文件部署无 DB 文件服务器,支持卷挂载、多层认证和高吞吐 up2k 流式传输的自托管参数与监控要点。
工程化代码优先的 Go ADK 运行时,用于多代理 AI 系统的构建、基准评估与灵活部署管道,提供零依赖运行、性能基准与控制参数。
工程化Ben Joffe的64位日期算法,使用倒序计数仅需4个乘法,加速30-40%,优化闰年与世纪边界,提供C++实现参数、ARM/x64优化与测试清单。
基于 PlayCanvas 引擎的实体-组件架构,结合 glTF 资产管道和 WebGPU 运行时,实现高效交互式 3D 体验,支持 WebXR 沉浸式应用。
低成本 Pi 集群掌控 Scaleway 高密度 Mac Mini ARM 农场:K8s 参数配置、共享存储、电源均衡监控与自动化迁移清单。
基于 Claude AI 提示工程,将历史 Jikes 编译器现代化移植到 C++17,支持 Java 5/6 特性如泛型与注解,提供构建参数、测试清单与优化策略。
基于开源TrendRadar,聚合35+平台热点,实现关键词智能筛选、趋势追踪与多渠道推送,支持Docker零编程部署的关键参数与工程实践。
剖析Cloudflare 2025年11月18日全球outage根因,提供工程容量规划阈值、DDoS绕过检测与动态熔断限流参数,实现缓存穿透防护。
JOPA项目利用AI重构IBM遗留Jikes编译器至C++,全栈支持Java 6特性,包括常量折叠、数据流分析与多轮优化,适用于引导式编译场景。
使用 Docker Compose 部署 Ollama Llama3、ChromaDB 和 Streamlit 的离线 RAG 系统,给出硬件要求、部署参数与性能优化清单。
通过工作负载重放、保留曲线拟合与蒙特卡洛模拟,评估DWPD规格在QLC SSD上的有效性,预测真实耐久差距并给出工程参数。
基于 Tech Interview Handbook 开源项目,用 TypeScript 工程化构建可扩展面试准备平台,包括 LeetCode 解决方案、系统设计模板、行为指南和分类学习轨道,提供高效编码面试参数与实践。
Plasma 6.8 移除 X11 会话支持,聚焦 Wayland 的会话恢复、多屏管理和 KWin 优化参数,提升安全与性能。
详解 Plasma 6.8 Wayland 独占模式下的会话恢复、多监视器处理与 KWin 合成器调优参数,实现安全高效桌面。
基于开源游戏列表,提炼 ECS、Bullet 物理、OpenGL 渲染、多人预测同步及 LOD 资产的工程参数清单与监控阈值。
剖析 bobeff/open-source-games 列表中游戏的架构共性:ECS 数据导向设计、Bullet 物理集成、现代 OpenGL 渲染、多人预测同步及 LOD 资产优化,提供工程参数与落地清单。
基于 JD-Core/CFR 等工具,详解 obfuscated bytecode 的 CFG 重构、类型推断策略,实现语义恢复与精确变量重命名工程参数。
剖析 runc 通过 mounts/cgroups/capabilities 的逃逸原语,提供 Docker/K8s rootless 配置、seccomp profile 与 LSM 栈参数,实现多层防护。