Hotdry.

Latest Essays

最新见解 · 第 680 页

继续沿着时间线阅读近期的工程实践与技术观察。

已收录 19386 篇文章主题 276 个

最新见解

近期的思考与工程笔记。

在 Verl 中使用 Bandit 反馈实现在线 RL 微调 LLM

探讨在 Verl 框架中实现在线强化学习循环,利用 bandit 反馈进行实时 LLM 适应,包括低延迟奖励模型和安全探索策略,实现连续偏好更新而无需完整重训练。

2025-11-15ai-systems2025-11

用 Rust 为 Boa JS 引擎工程 JIT 后端

面向 Boa JS 引擎的 JIT 后端工程实践,聚焦动态代码生成、寄存器分配与嵌入式系统优化,实现亚 100ms 启动时间。

2025-11-15compiler-design2025-11
上一页第 680 / 970 页下一页