LLM 评估器的自生成偏好偏差:简历筛选场景的量化评估与工程化缓解
实测 LLM 在简历筛选任务中持续偏好自身生成内容的行为,量化自生成偏差的评估方法与缓解策略,提供可落地的工程参数阈值。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
实测 LLM 在简历筛选任务中持续偏好自身生成内容的行为,量化自生成偏差的评估方法与缓解策略,提供可落地的工程参数阈值。
深入探讨 Barman 在企业环境中的 PostgreSQL 备份恢复能力,涵盖 WAL 归档策略配置、点时间恢复实现与灾难恢复最佳实践。
深入解析 bruin-data/dac 的 YAML/TSX 双模式渲染引擎、语义层 SQL 自动生成机制及 Codex Agent 集成方案,提供企业级可编程仪表盘的落地参数。
从碳黑颜料对高分子熔体流变行为的影响,解析 Noctua 黑色版风扇比经典配色延迟 6-12 个月发布的精密工程原因。
聚焦单示例生成游戏瓦片地图场景,详解邻接矩阵压缩存储与熵剪枝策略的工程实现,提供可落地的参数阈值与监控要点。
解析 Qbeast 的 OTree 有序空间索引在 Iceberg 查询中的排序优化,量化与 R-tree 的查询性能对比及工程实现要点。
深入解析 TradingAgents 金融数据管道的低延迟工程实践,涵盖行情聚合策略、缓存层设计与事件驱动更新机制,提供可落地的工程参数与监控要点。
深入解析 Pollen 如何通过自组织 mesh 与 CRDT 实现无中心协调的分布式 WASM 运行时,提供单二进制边缘部署方案。
解析 Dotcl 将 Common Lisp 源码编译至 CIL 字节码的实现路径,涵盖 S 表达式到 IL 的转换机制、CLR 运行时互操作模型,以及与 Racket、Clojure 等托管 Lisp 实现的设计差异。
深入评测 MLJAR Studio:100% 本地运行的 AI 数据分析工具,自然语言查询、Python 代码生成与 Notebook 持久化的工程实践。
基于微软 lib0xc 安全 C 库的模糊测试工程化方法,涵盖 AFL++ 覆盖率引导配置、内存安全漏洞检测与自动化回归测试流水线设计。
深入解析面向 Claude Code 的多智能体编排平台 Ruflo,剖析其 Swarm 协调机制、向量化记忆系统与跨域 Agent Federation 的工程化实现。
深入解析 Scrapling 的自适应解析引擎、智能元素定位算法与反检测策略,提供规模化抓取的配置参数。
深入解析 Wave Function Collapse 算法的核心机制,包括重叠模型与平铺模型的实现差异、熵计算策略、AC-4 约束传播以及工程落地关键参数。
解析 DeepSeek V4 的混合专家架构剪枝、潜在注意力压缩与两阶段蒸馏管线,揭示其以不足 Frontier 模型十分之一价格达成近似能力的工程细节。
基于 Apple Silicon M4 Pro 实测数据,量化 macOS 虚拟机在不同 CPU/内存配置下的性能表现与存储占用,提供最小化可用配置参数与 APFS 稀疏文件优化策略。
从Eka机器人夹爪的演示出发,剖析 robotics 临界点叙事对投资决策框架的影响,以及行业心理如何放大技术信号的估值效应。
深入解析纯 Rust 实现的编码代理框架 jcode,剖析其代码编辑管道架构、LLM 工具调用机制与性能优化设计。
深入解析 SimplePDF Copilot 如何通过浏览器端 AI 代理与客户端工具调用实现 PDF 表单字段的自动检测与填充,探讨无服务器文档自动化的工程实践。
从系统工程师视角剖析 USB-C 生态碎片化根源,提供功率传输协商参数与认证缺失的排查清单。