Hotdry.

Latest Essays

最新见解 · 第 302 页

继续沿着时间线阅读近期的工程实践与技术观察。

已收录 19380 篇文章主题 276 个

最新见解

近期的思考与工程笔记。

设计可复现的LLM代码生成评估工具链:超越模型比较的工程实践

本文基于Can Bölük的洞见,探讨如何构建一个健壮的代码生成评估工具链。重点分析‘编辑合并’这一关键瓶颈,提出包含智能diff解析、容错补丁应用、多模型并行执行与指标聚合的系统设计方案,并给出可落地的配置参数与监控清单,以实现自动化、可复现的LLM编码能力迭代评估。

2026-02-12ai-systems2026-02
上一页第 302 / 969 页下一页