Hotdry.
所有分类

mlops

技术与实践

CodexBar:macOS 菜单栏实时 LLM Token 使用监控

macOS 菜单栏应用 CodexBar,通过本地 CLI RPC 和浏览器缓存实现无登录监控 OpenAI Codex、Claude 等 LLM token 使用,提供安装配置、最优参数和监控清单。

阅读全文 →

构建面向异构客户环境的自动化部署与验证管道

针对自管理、BYOC、离线及边缘等异构客户环境,设计基于Distr的自动化部署管道,并构建涵盖基础设施、应用健康与业务功能的三层端到端验证流程,提供可落地的工程参数与监控清单。

阅读全文 →

构建可复现的AI代码审查基准方法学

深入探讨AI代码审查基准的构建方法论,涵盖指标定义、数据集构建策略与实际工作流集成实践,为团队提供可量化的模型评估框架。

阅读全文 →

分布式训练作业的自主恢复系统设计

深入解析分布式训练中的故障检测、无检查点恢复与弹性重启机制,给出零人工干预的高可用训练工程参数与监控阈值。

阅读全文 →

Oban Python 重试退避与任务去重机制解析

剖析 Oban Python 如何基于 PostgreSQL 实现可配置指数退避重试与并发上限控制,解析其分布式任务去重机制与 Pro 版本的唯一任务特性。

阅读全文 →