Leanstral 开源：6B 参数模型如何用 36 美元击败 Sonnet

形式化证明与代码生成的结合正在打开可信编程的新篇章。Mistral 近日开源的 Leanstral 定位为首个面向 Lean 4 的编程代理，以仅 6B 活跃参数的稀疏架构，在 FLTEval 基准上实现了令人瞩目的性价比：pass@2 得分 26.3，成本仅需 36 美元，而 Claude Sonnet 4.6 达到相近得分需 549 美元。这一数字背后折射出形式化证明工程化的核心命题 —— 如何在保证证明正确性的前提下显著降低推理成本。

Leanstral 的设计目标并非单纯追求数学竞赛成绩，而是聚焦于「真实形式化仓库中的证明工程任务」。这一定位使其区别于此前聚焦于孤立数学题目的证明助手。团队构建了 FLTEval 评估套件，模拟完整 PR 场景：模型需要完成所有形式化证明并正确定义新的数学概念，而非解答单一定理。这种评估方式更贴近实际开发流程，也更能反映模型在生产环境中的可用性。

从架构角度看，Leanstral 采用高度稀疏化设计，显著降低了推理时的算力消耗。配合 Lean 4 作为完美验证器进行并行推理，模型能够在证明失败时快速获得反馈并调整策略。Mistral 还强调该模型针对 MCP（Model Context Protocol）进行了专门优化，尤其是与 lean-lsp-mcp 的协作，这使得将其集成到现有开发工作流中的门槛大幅降低。

在实际应用层面，团队展示了两个典型场景。其一是解答 Proof Assistants Stack Exchange 上的真实问题：用户报告某脚本在 Lean 4.29.0-rc6 版本中无法编译。Leanstral 不仅成功复现了问题环境，还定位到根本原因 ——def 关键字创建的刚性定义阻塞了 rw 策略的模式匹配，并给出了将 def 替换为 abbrev 的解决方案。其二是将 Coq 代码迁移至 Lean：模型从普林斯顿大学的形式化语言课程材料出发，成功完成了概念转换并实现了自定义记号，甚至能在此基础上证明程序属性。

当前 Leanstral 已通过三条渠道开放使用：集成在 Mistral Vibe 中可直接通过 /leanstall 命令启动；提供免费或低价的 API 端点 labs-leanstral-2603；以及在 Apache 2.0 许可证下开放模型权重下载。对于希望在代码生成流程中引入形式化验证的团队而言，Leanstral 提供了一个低门槛的切入点 —— 既无需依赖昂贵的闭源模型，也无需从零构建证明基础设施。

资料来源：Mistral AI 官方发布页面（https://mistral.ai/news/leanstral）