Hotdry.
所有分类

ai-systems

机器智能

在 Verl 中为 PPO 集成自定义采样器

探讨 Verl 框架中 PPO 策略更新的自定义采样器集成,优化 LLM 对齐轨迹并降低奖励信号方差,提供工程参数与监控要点。

阅读全文 →

在 Verl 中使用 Bandit 反馈实现在线 RL 微调 LLM

探讨在 Verl 框架中实现在线强化学习循环,利用 bandit 反馈进行实时 LLM 适应,包括低延迟奖励模型和安全探索策略,实现连续偏好更新而无需完整重训练。

阅读全文 →

使用 Milvus 构建可扩展的 ANN 搜索管道

利用 Milvus 的分布式存储、混合索引和实时摄取机制,构建针对亿级向量数据集的 AI 检索管道,提供工程化参数和最佳实践。

阅读全文 →
37 / 66 页 · 共 5280