当数据库监控面板上出现一群永不休息、每秒生成大量 SQL 查询的 “用户” 时,传统的运维团队可能会误以为遭遇了 DDoS 攻击。然而,这很可能只是公司刚刚部署的一支 AI Agent 舰队,它们正不知疲倦地监控和优化业务指标。ClickHouse 敏锐地捕捉到了这一趋势,并提出了 “Agent-Facing Analytics” 的概念,将 AI Agent 视为数据库的 “新用户角色”。在此基础上,ClickHouse Agent Skills 应运而生,它旨在通过一套标准化的架构,将传统的数据库监控、诊断与 AI 驱动的技能编排深度融合,实现运维工作的自动化与智能化。
三层架构:数据、技能与编排的深度融合
ClickHouse Agent Skills 的核心是一个清晰的三层架构,每一层都针对 AI Agent 的特殊需求进行了优化。
第一层:数据层(ClickHouse OLAP 引擎) 这是整个架构的基石。与传统的、基于倒排索引、仅保留 7-14 天日志的监控平台不同,ClickHouse 的列式存储和高效压缩能力使得保留数月甚至更长时间的全保真(full-fidelity)日志、指标和追踪数据变得经济可行。其向量化执行引擎能够对数十亿行数据进行亚秒级扫描和聚合,这对于 AI Agent 在调查事件时可能发起的 6 到 27 次迭代查询至关重要。正如 ClickHouse 团队在 AI SRE 实验中所发现的:“瓶颈不在于模型的 IQ,而在于缺失的上下文、薄弱的数据基础和专业领域知识的缺乏。” 一个能够提供长留存、高基数维度的数据层,是 AI 技能得以发挥效用的前提。
第二层:技能层(MCP 协议与工具暴露)
技能通过 Model Context Protocol(MCP)这一开放标准进行封装和暴露。MCP 在 AI 应用(客户端)和数据源(服务器)之间建立了一座标准化的桥梁。官方的 ClickHouse MCP Server 提供了三个核心工具:list_databases(列出数据库)、list_tables(列出表)和execute_query(执行查询)。这种设计看似简单,却极具匠心。它没有将原始的数据库凭证暴露给 LLM,而是通过一个代理通道,提供了一个受控的 SQL 界面和数据目录。这使得 AI Agent 能够以标准化、安全的方式探索数据模式、采样数据并执行分析,将 “查询” 这一基本能力转化为可被编排的技能。
第三层:编排层(AI 推理与工作流引擎) 这是技能的 “大脑”。编排层接收自然语言指令,将其转化为结构化的调查工作流。它遵循 “感知 - 思考 - 行动” 的循环:基于数据层的信息形成假设,通过技能层调用工具进行验证,然后 refine 理解并决定下一步行动。在 ClickHouse 设想的 AI SRE 场景中,编排层的目标不是替代人类进行自动修复(这通常风险很高),而是充当一个 “调查员”,其信条是 “AI 负责搜寻,人类负责决策”。它通过快速关联部署事件、服务拓扑、历史事件和业务指标,压缩 “平均理解时间”,让值班工程师能够基于丰富的上下文迅速做出判断。
核心技能实现:从异常检测到根因分析
基于上述架构,可以构建一系列具体的运维技能。
1. 异常检测与告警精炼 传统告警基于静态阈值,噪音大。Agent Skill 可以动态分析历史基线。例如,当收到 “支付服务错误率上升” 的告警时,技能可以自动执行查询,对比当前错误模式与过去 30 天的历史分布,计算 Z-Score,并过滤掉属于正常波动的 “噪音” 告警。其执行流程可能包含:查询近期错误日志 -> 按服务、版本、区域多维度聚合 -> 与历史同期数据对比 -> 判断显著性。关键参数包括:时间窗口(如过去 5 分钟)、对比基线周期(如过去 30 天同一时段)、显著性阈值(如 Z-Score > 3)。
2. 根因分析(RCA)自动化 这是 AI SRE 的核心价值。当工程师提问 “为什么过去 20 分钟 us-east-1 区域的结账错误率激增?” 时,技能会启动一个多步骤的调查循环。首先,它会从上下文层查询最近一小时的部署记录和功能标志变更。接着,在数据层中,它会将错误日志与这些变更事件进行时间关联性 JOIN 查询。然后,通过追踪数据,分析错误请求的完整调用链,定位延迟最高的环节。最后,它还会查询历史事件表,寻找是否有相似错误模式的先例。整个过程中,技能可能发起数十次查询,但得益于 ClickHouse 的极速响应,整个循环可以在分钟级内完成,并输出一个初步的根因假设,例如:“错误率激增与 47 分钟前支付服务 v2.3.7 的部署高度相关,该版本在 fraud 服务调用上出现了缓存饱和问题,类似问题曾在 2025-03-15 发生。”
3. 性能调优建议
Agent 可以主动监控查询性能。通过定期采样系统表(如system.query_log),识别出执行时间最长或消耗资源最多的查询模式。利用EXPLAIN工具分析其执行计划,并与历史最优计划进行对比。对于出现性能回归的查询,技能可以建议增加特定的索引、重写查询语句或调整相关表的 MergeTree 设置。例如,它可能发现某个高频聚合查询因缺失PRIMARY KEY中某个高筛选度的列而导致全表扫描,从而建议修改表结构。
工程落地清单:从配置到评估
MCP 服务器配置要点:
- 安全边界:绝不直接暴露数据库超级用户。为 MCP Server 创建专用数据库用户,权限严格限制为
SELECT、SHOW DATABASES、SHOW TABLES。 - 资源隔离:使用 ClickHouse 的资源队列(resource queues)或设置
max_execution_time、max_memory_usage等参数,限制来自 MCP 连接的查询资源消耗,防止劣质 SQL 拖垮生产集群。 - 工具暴露策略:初期仅暴露只读工具。如需执行
OPTIMIZE、ALTER等管理命令,应设计独立的、需人工审核或特定触发条件的 “高权限技能”,并通过额外的授权层控制。
关键监控指标:
- 技能效能:每次技能调用的总耗时、发起的 SQL 查询数量、查询平均延迟、最终结论的置信度分数。
- 数据层健康度:ClickHouse 的查询并发数、内存使用量、慢查询数量(特别是由 MCP 发起的)。
- 上下文完整性:部署事件表、服务拓扑表等上下文数据的新鲜度(最后更新时间)。
回滚与熔断策略:
- 查询熔断:当 MCP 发起的查询连续 N 次超时或返回语法错误时,自动暂停该技能一段时间,并通知管理员。
- 技能回滚:如果某个新上线的技能(如自动索引创建)导致性能下降,应能一键切换到旧版逻辑或直接禁用。
- 人工接管:任何时候,运维人员都应能中断正在执行的 Agent 调查循环,并接管手动查询。
技能评估维度:
- 准确性:根因分析结论与事后人工复盘结果的一致性。
- 效率:相比纯人工调查,平均节省的时间(MTTU 减少比例)。
- 资源成本:执行技能所消耗的数据库计算资源。
- 安全性:是否产生过未经授权的数据访问或危险操作尝试。
风险、限制与未来展望
尽管前景广阔,ClickHouse Agent Skills 的落地仍面临挑战。首要风险是AI 生成 SQL 的质量。不完美甚至错误的 SQL 可能消耗大量资源,这就要求底层数据库必须具备出色的容错性和资源隔离能力。其次,技能的可靠性严重依赖上下文层的完整性与新鲜度。如果部署数据同步延迟或服务拓扑图过时,AI 很可能得出误导性结论。此外,LLM 固有的 “幻觉” 问题在数据分析场景中同样存在,需要通过在数据库层加强数据完整性约束(如使用参数化查询模板)和设置 LLM 推理参数(如降低 temperature)来缓解。
未来,Agent Skills 的发展可能会沿着几个方向演进:一是技能的市场化与共享,出现可插拔的技能库;二是从响应式到预测式,利用长期历史数据训练模型,在故障发生前预测风险;三是更深度的数据库内核集成,可能出现专为 AI Agent 优化的 SQL 语法扩展或存储格式,进一步提升交互效率。
结论
ClickHouse Agent Skills 代表了一种将现代 OLAP 数据库的强大能力与 AI Agent 的灵活编排相结合的新范式。它并非用 AI 完全取代人类运维,而是通过 “数据层提供记忆,技能层提供手脚,编排层提供推理” 的三位一体架构,将人类专家从繁琐的信息搜集和初步关联工作中解放出来,专注于更高价值的决策。成功的实施关键在于构建一个能够承载长周期、高基数数据的经济高效的数据底座,并通过 MCP 等标准协议安全、可控地暴露能力。对于正在探索智能运维之路的团队而言,从夯实可观测性数据基础开始,逐步引入受控的 AI 技能,或许是一条更务实且高效的路径。
资料来源
- ClickHouse. “Agent-Facing Analytics.” ClickHouse Blog, 13 Feb. 2025.
- ClickHouse. “Your AI SRE needs better observability, not bigger models.” ClickHouse Blog, 1 Jan. 2026.