Square Minus Square：构建可复现的AI编码代理基准测试框架

随着 AI 编码代理的快速发展，如何系统化评估其真实能力成为工程实践中的关键挑战。传统的代码生成评估往往停留在语法正确性层面，而忽视了代理在复杂问题解决、错误检测与自我修正方面的能力。Square Minus Square 基准测试框架的出现，为这一领域提供了新的评估视角。

AI 编码代理评估的现状与挑战

当前 AI 编码代理的评估体系存在几个核心问题：首先，大多数基准测试过于简单，无法反映真实世界编程任务的复杂性；其次，评估指标单一，往往只关注最终代码的正确性，而忽略了问题解决过程的质量；最后，缺乏标准化的评估框架，导致不同研究之间的结果难以直接比较。

正如 Manpreet Singh 在 2025 年 12 月的测试中所指出的：“工具包装的重要性有时甚至超过模型本身。” 这一观察揭示了当前 AI 编码代理生态系统的复杂性 —— 模型能力、工具链设计、反馈机制等多个维度共同决定了代理的实际表现。

Square Minus Square 基准测试的设计哲学

Square Minus Square 基准测试的核心任务是：计算两个非轴对齐、不同大小正方形在 2D 平面上的差集面积，并使用最少数量的三角形进行三角剖分。这一设计看似简单，实则蕴含了多个层次的挑战：

1. 几何计算的复杂性

任务要求处理非轴对齐的正方形，这意味着代理需要理解旋转矩阵、坐标变换等几何概念。差集面积的计算涉及多边形裁剪算法，而使用最少三角形进行三角剖分则要求代理具备优化思维。

2. Rust 实现的约束

基准测试要求实现一个无依赖的 Rust 函数：

pub fn generate(
    center1: [f32; 2], rotation1: f32, size1: f32,
    center2: [f32; 2], rotation2: f32, size2: f32,
) -> Vec<[f32; 2]> {
    // TODO
}

这一设计确保了评估的公平性，避免了外部库依赖可能带来的偏差。

3. 可视化反馈机制

框架内置了可视化功能，能够生成结果截图和视频记录。这一设计不仅便于人工审查，更重要的是为 AI 代理提供了自我检查的途径。测试结果显示，所有顶级模型都展示了通过截图检查工作的能力，这验证了反馈循环在 AI 编码中的重要性。

测试结果的关键发现

通过对多个 AI 编码代理的测试，Square Minus Square 基准测试揭示了几个重要发现：

1. 当前 LLM 的局限性

截至测试时，没有任何 LLM 能够完全成功解决该任务。这一结果并非否定 AI 编码代理的能力，而是揭示了当前模型在复杂几何计算任务上的局限性。正如基准测试创建者所观察到的：“所有顶级模型（Opus、Gemini 3 Pro、GPT 5.2）都曾取得过最佳表现，但有时它们生成的代码会崩溃。”

2. 反馈循环的重要性

测试中最有价值的发现是：几乎所有模型都尝试生成截图并检查它们以修复错误。顶级模型能够正确识别实际问题，这表明为 AI 代理提供自我检查的能力是提升其可靠性的关键。

3. 结果的不稳定性

同一模型在不同运行中可能产生截然不同的结果，有时生成高质量的代码，有时则产生崩溃的代码。这种不稳定性提示我们需要在评估中考虑多次运行的平均表现，而非单次结果。

构建可复现 AI 编码代理评估框架的工程实践

基于 Square Minus Square 的经验，我们可以提炼出构建可复现 AI 编码代理评估框架的关键要素：

1. 任务设计的层次化

有效的基准测试应该包含多个难度层次：

基础层：语法正确性、简单算法实现
中级层：复杂数据结构、API 集成
高级层：优化问题、领域特定计算（如几何计算）

每个层次都应该有明确的评估标准和可量化的指标。

2. 评估指标的多元化

除了传统的正确性指标外，还应考虑：

代码质量：可读性、模块化程度、错误处理
效率指标：时间复杂度、空间复杂度
过程指标：尝试次数、自我修正能力、问题理解深度

3. 反馈机制的标准化

为 AI 代理提供标准化的反馈接口：

执行环境：隔离的沙箱环境，支持代码执行与结果验证
可视化工具：标准化的结果可视化接口
错误诊断：结构化的错误信息反馈机制

4. 可复现性的技术保障

确保评估结果的可复现性需要：

环境一致性：使用容器化技术确保运行环境一致
随机性控制：固定随机种子，确保随机行为可复现
版本管理：严格管理模型版本、工具链版本

5. 结果分析的自动化

开发自动化分析工具，能够：

性能对比：自动生成不同代理的性能对比报告
错误模式分析：识别常见错误模式，为模型改进提供方向
趋势跟踪：跟踪模型性能随时间的变化趋势

工程化参数与监控要点

在实际部署 AI 编码代理评估系统时，需要关注以下工程化参数：

1. 执行环境配置

execution_environment:
  timeout_seconds: 30
  memory_limit_mb: 512
  cpu_cores: 1
  network_access: false
  filesystem_access: read_only

2. 评估流程参数

evaluation_pipeline:
  max_attempts: 3
  feedback_delay_ms: 1000
  screenshot_enabled: true
  video_recording_enabled: false
  result_validation_strictness: high

3. 监控指标

成功率：任务完成的百分比
平均尝试次数：完成任务所需的平均尝试次数
代码质量评分：基于静态分析的代码质量评分
执行时间分布：代码执行时间的分布情况
错误类型分布：不同类型错误的发生频率

4. 告警阈值

alerts:
  success_rate_below: 0.7
  avg_attempts_above: 2.5
  timeout_rate_above: 0.1
  crash_rate_above: 0.05

未来发展方向

Square Minus Square 基准测试为 AI 编码代理评估开辟了新的方向，未来的发展可能包括：

1. 领域扩展

将评估范围扩展到更多领域：

Web 开发：前端组件实现、API 集成
数据科学：数据处理管道、机器学习模型实现
系统编程：并发编程、内存管理

2. 协作能力评估

评估 AI 代理在协作编程场景中的表现：

代码审查：识别代码问题、提出改进建议
结对编程：与人类开发者协作完成任务
团队协作：在多人项目中协调工作

3. 自适应评估框架

开发能够根据代理表现动态调整难度的评估框架：

难度自适应：根据代理表现自动调整任务难度
个性化评估：针对不同代理的特点设计评估任务
持续学习：评估框架能够从历史数据中学习改进

结论

Square Minus Square 基准测试框架的重要性不仅在于其具体的几何计算任务，更在于它所倡导的评估理念：AI 编码代理的评估应该关注问题解决的全过程，而不仅仅是最终结果。通过提供标准化的反馈机制、确保评估的可复现性、设计多层次的评估指标，我们能够更准确地衡量 AI 编码代理的真实能力。

正如测试结果所揭示的，反馈循环是提升 AI 编码代理可靠性的关键。未来的 AI 编码系统不仅需要强大的代码生成能力，更需要完善的自我检查与修正机制。Square Minus Square 为这一方向的发展提供了有价值的参考框架。

对于工程团队而言，构建可复现的 AI 编码代理评估系统不仅是技术挑战，更是确保 AI 辅助编程可靠性的基础保障。通过标准化的评估流程、多元化的评估指标、自动化的分析工具，我们能够更有效地跟踪 AI 编码技术的发展，为工程决策提供数据支持。

资料来源

Square Minus Square - A coding agent benchmark (https://aedm.net/blog/square-minus-square-2025-12-22/)
I Tested All Top AI Coding Agents in December 2025, Results will surprise you (https://medium.com/everyday-ai/i-tested-all-top-ai-coding-agents-in-december-2025-results-will-surprise-you-90b4e91bc4a0)