LLM 语义分类构建 AI 错误码推荐系统：从 EAI 到 EVIL 的工程化实践

Unix 系统调用失败时返回的 errno 错误码，是系统编程中最基础的错误处理机制。每个错误码背后都对应着明确的故障场景与恢复策略 ——ENOENT 表示文件不存在，ENOMEM 表示内存耗尽，EACCES 表示权限不足。这种将故障模式编码化、标准化的做法，为复杂系统的可观测性与可维护性提供了坚实基础。

当 AI 系统成为生产环境的核心组件，其故障模式远比传统软件更加复杂多变。幻觉、上下文丢失、token 耗尽、越狱攻击…… 这些 AI 特有的故障缺乏统一的描述语言，导致运维团队在面对异常时往往只能依赖经验判断。借鉴 errno 的设计哲学，我们可以用 LLM 对 AI 故障进行语义分类，构建一套可解释、可推荐的处理系统。

AI 故障的 errno 映射

netmeister.org 上发布的 AI errno 列表以幽默的方式定义了 30 种 AI 系统常见故障，错误码从 EAI (201) 到 EVIL (230)。这些故障可以归纳为六大类别：

生成质量类（EAI、EGAD、EDUNK、EGIGO）：涵盖幻觉、上下文丢失、过度自信、重复输出等生成层面的问题。这类错误的特征是输出内容看似合理但存在事实错误或逻辑缺陷，需要人工审核或事实校验机制介入。

资源限制类（ETOKEN、EFFTHEPLANET、ESPOF）：涉及计算资源、API 配额、数据中心容量等硬性约束。当系统返回 ETOKEN 时，意味着当前请求的 token 预算已耗尽，需要实施退避重试或请求拆分策略。

安全与伦理类（EVIL、EGROK、ECLAW、EOOPS）：包括越狱检测、系统入侵、意外删除等高风险场景。EGROK（ Nazi-mode detected）提示可能的安全策略触发，需要立即转入人工审核流程。

交互行为类（EPWNED、ELLMAO、EHEADDESK、ELIZA）：描述模型与用户的交互异常，如忽略前文指令、过度轻信、分析时间过长等。这类错误往往需要调整提示词工程或切换模型版本。

系统操作类（EBOTDOS、ESOCLOSE、EFOOTGUN）：涉及底层基础设施故障，如爬虫农场失效、输出写入失败、权限误操作等。这类错误通常需要运维团队介入处理。

模型特性类（EDAUKINS、ELISP、EMACS、EPYTHONG）：反映特定模型的行为特征或历史梗，如 Claude 的特定幻觉模式、编辑器相关错误等。了解这些特性有助于针对性地调整使用策略。

LLM 语义分类的工程实现

将上述 30 种错误码输入 LLM 进行语义聚类，可以构建自动化的故障诊断与处理推荐系统。核心流程分为三个步骤：

第一步：向量化编码。将每个错误码的定义文本（如 "EAI: hallucination"）通过嵌入模型转换为高维向量。这里推荐使用 text-embedding-3-small 或同级别的轻量级模型，在保持语义理解能力的同时控制计算成本。对于中文场景，可以将错误描述翻译为中文后再编码，或直接使用支持多语言的嵌入模型。

第二步：层次聚类。使用 HDBSCAN 或 K-Means 算法对错误码向量进行聚类。根据实验，当聚类数设为 6 时，可以较好地对应前述的六大故障类别。聚类过程中需要设置最小簇大小参数（min_cluster_size=3），避免将孤立错误码强行归类。

第三步：分类器训练。基于聚类结果训练一个轻量级分类器（如 Logistic Regression 或小型 BERT），用于实时判断新出现的错误属于哪个类别。分类器的输入是错误日志的向量化表示，输出是推荐的错误处理策略。

可落地的推荐策略

针对不同类别的错误，系统可以自动触发相应的处理流程：

错误类别	检测信号	推荐策略	人工介入阈值
生成质量类	事实一致性分数 < 0.7	启用 RAG 增强检索，降低 temperature 至 0.3	连续 3 次校验失败
资源限制类	HTTP 429/503 状态码	指数退避重试（初始 1s，最大 60s）	重试 5 次后仍失败
安全伦理类	毒性检测分数 > 0.8	立即终止会话，记录审计日志	任何一次触发即介入
交互行为类	用户满意度评分 < 2	切换至备用模型，提示词模板重置	单会话投诉
系统操作类	基础设施监控告警	触发熔断机制，流量切换至备用集群	自动恢复失败
模型特性类	特定错误关键词匹配	查阅模型已知问题清单，调整调用参数	无匹配记录时

监控与可观测性

在生产环境中部署这套系统时，需要在三个层面建立监控：

错误码分布监控：实时统计各类错误的发生频率，识别系统薄弱环节。建议设置告警阈值：当某类错误占比超过总错误的 20% 时触发告警。

分类准确率监控：定期抽样人工校验 LLM 的分类结果，计算准确率与召回率。目标指标：分类准确率 > 85%，召回率 > 90%。

处理效果监控：跟踪推荐策略的执行效果，如重试成功率、人工介入率、平均恢复时间等。通过 A/B 测试持续优化策略参数。

局限与风险

这套方法存在几个需要关注的局限：首先，错误码的定义依赖于人工经验，可能遗漏某些边缘场景；其次，LLM 的语义理解存在偏差，分类结果可能受训练数据分布影响；最后，自动化处理策略在面对复杂故障时可能不够灵活，需要保留人工覆盖机制。

建议采用渐进式部署策略：先在非核心场景试运行，积累足够的数据后再推广至生产环境。同时建立错误码的扩展机制，当发现新的故障模式时，可以参照现有范式快速定义新的错误码并纳入分类体系。

参考来源

netmeister.org: AI errno(2) values - 定义了 30 种 AI 系统错误码及其语义描述
netmeister.org: Root Cause: Human Errno - Unix errno 范式的幽默演绎，为 AI 错误码分类提供参考框架

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。