在人工智能模型能力快速迭代的今天,开源模型与闭源前沿模型之间的差距正在急剧缩小。2026 年 4 月,中国初创公司 Moonshot AI 发布的 Kimi K2.6 以开源权重形式,在一项实时编程挑战中击败了 GPT-5.5、Claude Opus 4.7 和 Gemini Pro 3.1 等顶级闭源模型,这一结果不仅刷新了业界对开源模型能力的认知,更揭示了当前大语言模型在代码执行与实时决策方面的新趋势。
挑战赛制与评分机制
本次比赛由 AI Coding Contest 主办,赛题为 Word Gem Puzzle(宝石文字拼图),这是一种滑动拼图与文字游戏的结合体。比赛在 10×10、15×15、20×20、25×25 和 30×30 五种不同尺寸的网格上进行,每对模型各进行五轮对决。游戏规则要求参赛者通过滑动相邻方格进入空白位置,在水平或垂直方向上形成有效的英文单词并 claim 获取分数。值得注意的是,评分系统对短词有明确惩罚:七字母以下单词会扣分,三字母单词直接扣三分,而七字母及以上单词则获得长度减六的正分。这一机制有效防止了参赛者通过大量 claiming 短词来刷分。
在规定时间内,每轮比赛仅有十秒的实际操作窗口,这对模型的代码生成能力、协议理解和实时决策都构成了严峻考验。比赛采用客观计分,确保了结果的可信度和可比性。
参赛模型与最终排名
共有九款模型参与了本次挑战,从结果来看出现了令业界意外的局面:Kimi K2.6 以 22 分(7 胜 1 平 0 负)的绝对优势夺冠,来自小米 MiMo V2-Pro 以 20 分获得第二名,ChatGPT GPT-5.5 以 16 分位列第三,GLM 5.1 紧随其后。而令人关注的是,Anthropic 的 Claude Opus 4.7 仅获第五名(12 分),Google 的 Gemini Pro 3.1 第六名(9 分),xAI 的 Grok Expert 4.2 第七名(9 分)。中国模型占据了前两位,西方前沿模型均未进入前三。
这一结果并非简单的「中国超越西方」叙事 —— 因为同样来自中国的 DeepSeek V4 仅获第八名,Muse Spark 垫底。真正值得关注的是两款特定模型 Kimi K2.6 和 MiMo V2-Pro 的技术策略如何在这个特定赛题中取得优势。
Kimi K2.6 的技术策略分析
从比赛日志来看,Kimi K2.6 采用了一种看似简单却极为有效的贪婪策略:评估每个可能的滑动操作能解锁的新单词价值,选择最优操作执行,当没有正向价值时则按字母顺序回退。这种策略在 30×30 大型网格中展现出了显著优势 —— 尽管偶尔会出现边缘震荡的无效滑动,但在需要重建单词的大型网格上,持续的滑动操作最终产生了累积收益。Kimi K2.6 的总累积得分达到 77 分,为全场最高。
这一策略的成功揭示了当前大语言模型在代码生成领域的一个重要特质:面对具体的、目标明确的编程任务时,经过针对性优化的开源模型能够快速生成功能正确且高效的代码。与那些只能进行静态扫描的模型不同,Kimi K2.6 展现出了真正的实时行动能力。
其他模型的表现与技术局限
MiMo V2-Pro 的策略与 Kimi K2.6 形成了鲜明对比:虽然代码中包含了滑动逻辑,但由于阈值设置问题,实际上从未触发滑动操作,而是直接在初始网格上扫描七字母以上的单词并一次性 claim。在单词未被破坏的小型网格上,这种策略表现优异,但在 30×30 网格上几乎颗粒无收,最终靠单词残留的运气成分获得第二名。
Claude Opus 4.7 同样没有实现滑动功能,在 25×25 以下的网格上表现尚可,但在需要实际.tile. 移动的 30×30 网格上完全失效。GPT-5.5 更为保守,进行了约 120 次滑动并设置了操作上限以防止无效震荡,在大型网格上表现相对稳定。GLM 5.1 则是全场最激进的滑动者,总滑动次数超过 80 万次,但在正向价值操作耗尽后立即停滞。
DeepSeek V4 的表现最为异常,每轮都发送格式错误的数据,完全未能参与游戏,这反映了模型在处理新颖协议规范时的局限性。Muse Spark 则走向了另一个极端 —— 它对所有找到的单词无论长度都进行 claim,完全忽视了评分规则中的惩罚机制,最终累计得分 -15309 分,比第八名还低 15309 分。这一案例清晰地说明了一个问题:当模型的指令遵循不够完整时,即使执行力再强也会导致灾难性结果。
对行业格局的启示
从更宏观的视角来看,Kimi K2.6 在 Artificial Analysis Intelligence Index 上得分 54,GPT-5.5 得分 60,Claude 得分 57—— 三者的差距已经在单个百分点级别。这意味着,当一个开源模型的能力接近前沿水平时,其可本地部署、可自定义的优势将带来截然不同的竞争态势。
对于企业而言,开源权重模型意味着数据本地化、更低的每 token 成本、以及完全的行为控制。对于需要处理敏感代码数据或对延迟有严格要求的场景,可自托管的 Kimi K2.6 提供了闭源模型无法匹配的灵活性。当然,这也对团队的工程能力提出了更高要求 —— 模型的能力只是其中一环,如何将其集成到实际工作流中并优化表现,同样是关键竞争力。
本次编程挑战赛的结果不应被过度解读为「开源已全面超越闭源」,但它清晰地表明:差距已经缩小到足以在实际任务中产生显著差异的程度。对于关注 AI 工程实践的技术决策者而言,这预示着一个更加多元化的模型选用时代的到来。
资料来源:ThinkPol