Hotdry.
ai-systems

Opper Car Wash测试:53个LLM模型的推理可靠性与噪声抗性评估

解析Opper提出的Car Wash评估框架,用53个主流LLM交叉验证推理能力与噪声抗性,揭示模型协作评估的工程挑战。

在大型语言模型评估领域,大多数基准测试关注的是模型在复杂任务上的表现,却忽略了一个根本性的问题:模型在最简单、最直接的推理任务上是否可靠?Opper 近日发布的「Car Wash」测试正是为了填补这一空白。该测试仅用一个极其简单的问题,揭示了当前主流 LLM 在基础推理与一致性上的惊人脆弱性。

Car Wash 测试的设计与执行

Car Wash 测试的核心问题极为简洁:「我想要洗车。洗车场距离我 50 米。我应该走路还是开车?」这个问题的正确答案显然是「开车」,因为车需要到达洗车场才能进行清洗。然而,正是这样一个人类可以瞬间给出正确答案的问题难住了绝大多数 AI 模型。

Opper 通过其 LLM 网关对 53 个主流模型进行了统一测试。测试采用零上下文设计:不使用任何系统提示词,强制模型在「drive」和「walk」之间做出选择,并要求提供简要推理理由。测试分为两个阶段:单次运行测试(每个模型调用一次)与一致性测试(每个模型调用 10 次),共计 530 次 API 调用。

单次运行:42 个模型给出了错误答案

单次运行的结果令人担忧。在 53 个模型中,仅有 11 个给出了正确答案「drive」,其余 42 个模型错误地选择了「walk」。这些错误答案的推理模式高度一致:模型们普遍强调「50 米是很短的距离」「步行更省油」「步行更环保」等表面因素,却完全忽略了问题的核心前提 —— 车必须到达洗车场才能被清洗。

按模型家族划分,结果更加清晰地呈现了各厂商的能力差异:Anthropic 家族仅有 Claude Opus 4.6 通过测试,Sonnet 4.5 等其他版本全部失败;OpenAI 家族只有 GPT-5 通过,GPT-4o 和 GPT-5.1 均告失败;Google 的 Gemini 3 系列表现最佳,三个型号全部通过,但 Gemini 2.x 系列全部失败;xAI 的 Grok-4 通过测试;Meta 的 Llama 系列和 Mistral 系列则全军覆没。值得注意的是,Perplexity 的 Sonar 和 Sonar Pro 虽然给出了正确答案,但其推理过程堪称荒谬 —— 它们引用 EPA 研究声称步行因食物生产耗能反而比开车更不环保。这些模型得到正确答案的方式与正确推理完全无关,这本身就揭示了评估的复杂性。

一致性测试:可靠性问题更加严峻

单次通过并不足以证明模型真正掌握了该推理能力。Opper 进一步对每个模型进行了 10 次一致性测试,结果显示情况更加严峻。在单次测试中通过的那 11 个模型里,仅有 5 个能够在 10 次运行中全部答对,分别是 Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro 和 Grok-4。这 5 个模型展现了真正的推理稳定性。

其余模型的表现在一致性测试中大幅下降。GPT-5 作为 OpenAI 的旗舰模型,仅获得 7/10 的成绩,意味着在生产环境中约 30% 的调用会返回错误答案。GLM-5 和 Grok-4-1 Reasoning 获得 8/10。Kimi K2.5 从单次通过的正确答案跌至 5/10—— 同一模型在相同提示词下表现如同抛硬币。Sonar Pro 从正确跌至 4/10,而 Sonar 更是从正确变为 0/10—— 它每次都写出长达 200 字的 EPA 研究分析,但结论在「drive」和「walk」之间随机切换。最具黑色幽默的是 GLM-4.7:它在单次测试中失败,却在 10 次测试中获得 6/10—— 第一次只是运气不好。

人类基线对比:AI 可靠性警醒

为了给测试结果提供人类参照,Opper 与 Rapidata 合作,找来了 10000 名真实人类回答同样的问题。在没有任何思考时间限制的情况下,71.5% 的人选择了「drive」。这个数字高于 48 个接受测试的模型 —— 也就是说,绝大多数 AI 模型在基础推理任务上的表现甚至不如普通人类。

GPT-5 的 7/10 准确率(约 70%)与人类平均的 71.5% 几乎持平,这一巧合颇具讽刺意味。在 53 个模型中,只有 5 个 10/10 全对的模型和 2 个 8/10 的模型能够超越人类平均水平。

工程启示:从测试到生产

Car Wash 测试虽然是一个「玩具问题」,但它揭示的工程挑战却是真实且严峻的。

首先,模型选择不能只看单次评测结果。传统的基准测试往往只运行一次或几次,但如测试所示,许多模型具备解题能力但无法稳定输出。在生产环境中,这种「有时对有时错」的行为比「永远错」更加危险,因为它更难被检测和调试。

其次,启发式与推理的竞争是失败的核心原因。模型在训练过程中习得了「短距离 = 步行」的表面规律,当这类启发式与更深层的上下文推理冲突时,模型往往选择前者。这意味着即使是简单的业务规则嵌入,也可能因为与模型内在偏好的冲突而失败。

第三,上下文工程可能是关键解法。Opper 在后续实验中展示了一个重要发现:通过在推理时提供结构化的领域示例和上下文信息,可以帮助小型开源模型达到接近前沿模型的输出质量,且成本降低 98.6%。这说明在提示词层面进行精细的上下文设计,能够有效引导模型 Override 通用的启发式倾向。

最后,对于需要高可靠性生产部署的系统,一致性应成为核心评估指标。传统的准确率、F1 分数等指标无法反映模型在相同输入下的输出波动。对于关键业务逻辑,建议进行至少 10 到 20 次的重复调用测试,评估模型的稳定输出能力。

Car Wash 测试给行业敲响了警钟:当连「车需要开到洗车场」这样的一步推理都无法被大多数模型可靠执行时,我们对 LLM 在复杂业务场景中的表现需要更加审慎。评估一个模型,不仅要看它能做什么,更要看它能稳定地做什么。


参考资料

  • Opper 官方博客:Car Wash Test on 53 leading AI models(opper.ai/blog/car-wash-test)
查看归档