当我们谈论开源大语言模型的工具调用能力时,常见的评测方式是在固定任务集上跑分,然后给出一个综合指标。然而,这种做法忽视了一个根本性的结构问题:当模型数量和工具数量同时增长时,评估本身会演变成一个 M×N 的矩阵难题 —— 你需要为每种模型 - 工具组合进行测试,而任何一次失败都可能是工具选择错误、参数生成错误或输出格式错误导致的。这篇内容将深入剖析这一评估复杂性的本质,并给出可落地的度量框架与测试策略。
M×N 问题的本质
M×N 问题并非学术概念,而是实践中最真实的痛点。假设你手头有 10 个主流开源模型,需要评估它们在 20 种不同工具上的表现,理论上就需要 200 次独立测试。更棘手的是,每一次调用还涉及参数组合 —— 同一个工具可能有多个可选参数、必填参数和嵌套结构,这意味着即使模型正确选择了工具,参数生成的正确性仍需要额外验证。于是实际的测试规模会远远超出 M×N,变成 M×N×P,其中 P 是参数组合的复杂度。
这种组合爆炸带来的直接后果是资源消耗呈指数级增长。一个负责任的评估流程需要覆盖足够多样的工具类型和参数场景,否则得到的分数就会严重偏离真实表现。常见的情况是某个模型在简单工具集上表现优异,但面对复杂参数结构时性能断崖式下跌 —— 如果没有针对性地设计评估矩阵,这种衰减往往被掩盖在单一的综合分数之下。
错误分类:工具选择与参数生成分离度量
解决 M×N 问题的第一步是建立清晰的错误分类体系。根据目前的最佳实践,工具调用过程中的错误可以明确划分为两大类,每类都有独立的根因和修复路径。
第一类是工具选择错误,也就是模型没有选中应该使用的工具,或者错误地选择了不该使用的工具。这种错误通常源于模型对任务意图的理解偏差,或者对工具能力边界的认知不足。评估时需要设计大量正负样本 —— 有些任务明确需要调用工具,有些任务则直接回答更好 —— 来检验模型的 “克制能力”,即它在不需要工具时能否保持 restraint 不乱调用。
第二类是参数生成错误,即使模型选对了工具,传递给工具的参数可能缺失、类型错误、格式不规范,或者包含幻觉内容。这类错误需要进一步细分为必填参数缺失、可选参数不完整、参数类型不匹配、参数值越界、JSON 格式错误等多个子类。每一子类都对应不同的模型能力缺陷,需要不同的优化方向。
将这两类错误分开度量而不是简单累加一个总分,是构建可靠评估体系的关键。一个模型可能在工具选择上准确率很高,但参数生成一塌糊涂;反之亦然。将它们混在一起报告会导致团队无法定位真正的短板。
评估维度与度量指标
除了上述错误分类,一次完整的工具调用评估还需要覆盖四个核心维度,每个维度都有对应的可量化指标。
工具选择准确率衡量模型是否在应该调用工具时正确选中了目标工具,同时在可以直接回答时不调用任何工具。这个指标需要构建平衡的正负样本集,确保模型不是在两个极端上出现系统性偏差。实践中通常要求准确率超过 95% 才认为模型具备基本的工具选择能力。
参数正确率在模型选择了正确工具的前提下,评估它生成的参数是否完全符合工具 schema 的要求。这包括必填参数是否都存在、类型是否匹配、格式是否规范、值是否在有效范围内。一个实用的做法是设计多个参数复杂度递增的任务,从单参数简单调用逐步升级到多参数嵌套结构,以观察模型在参数复杂度上升时的性能衰减曲线。
多步骤行为评估模型能否将多个工具调用串联起来,形成合理的执行链。这要求测试用例包含需要分步完成的任务,例如先查询再过滤最后排序。评估时需要检验每一步的时序是否正确、前面步骤的输出是否被正确传递、是否有不必要的循环或任务漂移。
克制能力是经常被忽视但至关重要的维度。一个优秀的工具调用模型应该在不需要工具时直接给出答案,而不是强行构造调用。它的反面是 “工具幻觉”—— 用户只需要一个简单计算或常识问答,模型却调用了一个并不必要的工具,既浪费计算资源又可能引入错误。
组合复杂度下的测试策略
面对 M×N 的组合爆炸,盲目增加测试用例数量不是可持续的策略。更有效的方法是采用分层抽样与针对性探测相结合的策略。
第一层是核心基准集,选择 5 到 8 种代表性工具类型,每类工具设计 10 到 15 个标准测试用例,覆盖单参数、多参数、嵌套参数、错误处理等常见场景。这一层的目标是快速筛选出模型的基础能力,任何在这一层表现不佳的模型可以直接判定为不具备生产可用性。
第二层是扩展场景集,针对特定工具类别进行深度测试。如果你发现某个模型在 API 调用类工具上表现特别差,就针对该类别设计 50 个以上的变体,参数化改变请求体的结构和参数值,以定位具体的失败模式。
第三层是压力测试,专门设计参数组合爆炸的场景。例如设计一个拥有 20 个可选参数的工具,每次测试随机激活其中 5 到 10 个,观察模型能否在参数空间变大时保持稳定的生成质量。这类测试成本较高,建议仅针对核心模型进行。
在报告结果时,建议使用矩阵热力图而不是单一总分。每一行对应一个模型,每一列对应一个工具类型,单元格颜色深浅代表该组合的得分。这种可视化方式能够直观展示模型的能力分布,帮助开发者快速定位优势领域和薄弱环节。
实践建议与监控阈值
对于工程团队来说,建立 M×N 评估体系的投入较大,但以下是几个低门槛起步的建议。首先利用现有的开源基准进行初筛,如 ToolBench、API-Bank 或 Berkeley 的 Tool Learning Benchmark,这些基准已经覆盖了常见的工具类型和调用模式,可以快速获得模型的基础能力画像。其次在内部评估时优先分离工具选择和参数生成的度量,至少在日志中分开记录这两类错误,便于后续的根因分析。
在监控阈值方面,以下数值可作为生产部署的参考:工具选择准确率应达到 95% 以上,参数完整正确率应达到 90% 以上,多步骤任务完成率应达到 85% 以上。如果某个维度低于这些阈值,建议在生产环境中对该模型 - 工具组合设置降级或人工介入。
最后需要强调的是,M×N 评估不是一次性的工作,而是持续的过程。随着模型迭代和新工具的引入,评估矩阵需要动态扩展。建议将评估流程自动化并集成到 CI 体系中,每次模型更新都触发完整的矩阵测试,确保性能衰减能够被及时发现。
资料来源:本文核心观点参考了 Arize AI 关于工具调用评估的实践框架以及 ToolScan 基准对开源模型错误模式的系统性分类。