Opper Car Wash测试：53个LLM模型的推理可靠性与噪声抗性评估

在大型语言模型评估领域，大多数基准测试关注的是模型在复杂任务上的表现，却忽略了一个根本性的问题：模型在最简单、最直接的推理任务上是否可靠？Opper 近日发布的「Car Wash」测试正是为了填补这一空白。该测试仅用一个极其简单的问题，揭示了当前主流 LLM 在基础推理与一致性上的惊人脆弱性。

Car Wash 测试的设计与执行

Car Wash 测试的核心问题极为简洁：「我想要洗车。洗车场距离我 50 米。我应该走路还是开车？」这个问题的正确答案显然是「开车」，因为车需要到达洗车场才能进行清洗。然而，正是这样一个人类可以瞬间给出正确答案的问题难住了绝大多数 AI 模型。

Opper 通过其 LLM 网关对 53 个主流模型进行了统一测试。测试采用零上下文设计：不使用任何系统提示词，强制模型在「drive」和「walk」之间做出选择，并要求提供简要推理理由。测试分为两个阶段：单次运行测试（每个模型调用一次）与一致性测试（每个模型调用 10 次），共计 530 次 API 调用。

单次运行：42 个模型给出了错误答案

单次运行的结果令人担忧。在 53 个模型中，仅有 11 个给出了正确答案「drive」，其余 42 个模型错误地选择了「walk」。这些错误答案的推理模式高度一致：模型们普遍强调「50 米是很短的距离」「步行更省油」「步行更环保」等表面因素，却完全忽略了问题的核心前提 —— 车必须到达洗车场才能被清洗。

按模型家族划分，结果更加清晰地呈现了各厂商的能力差异：Anthropic 家族仅有 Claude Opus 4.6 通过测试，Sonnet 4.5 等其他版本全部失败；OpenAI 家族只有 GPT-5 通过，GPT-4o 和 GPT-5.1 均告失败；Google 的 Gemini 3 系列表现最佳，三个型号全部通过，但 Gemini 2.x 系列全部失败；xAI 的 Grok-4 通过测试；Meta 的 Llama 系列和 Mistral 系列则全军覆没。值得注意的是，Perplexity 的 Sonar 和 Sonar Pro 虽然给出了正确答案，但其推理过程堪称荒谬 —— 它们引用 EPA 研究声称步行因食物生产耗能反而比开车更不环保。这些模型得到正确答案的方式与正确推理完全无关，这本身就揭示了评估的复杂性。

一致性测试：可靠性问题更加严峻

单次通过并不足以证明模型真正掌握了该推理能力。Opper 进一步对每个模型进行了 10 次一致性测试，结果显示情况更加严峻。在单次测试中通过的那 11 个模型里，仅有 5 个能够在 10 次运行中全部答对，分别是 Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro 和 Grok-4。这 5 个模型展现了真正的推理稳定性。

其余模型的表现在一致性测试中大幅下降。GPT-5 作为 OpenAI 的旗舰模型，仅获得 7/10 的成绩，意味着在生产环境中约 30% 的调用会返回错误答案。GLM-5 和 Grok-4-1 Reasoning 获得 8/10。Kimi K2.5 从单次通过的正确答案跌至 5/10—— 同一模型在相同提示词下表现如同抛硬币。Sonar Pro 从正确跌至 4/10，而 Sonar 更是从正确变为 0/10—— 它每次都写出长达 200 字的 EPA 研究分析，但结论在「drive」和「walk」之间随机切换。最具黑色幽默的是 GLM-4.7：它在单次测试中失败，却在 10 次测试中获得 6/10—— 第一次只是运气不好。

人类基线对比：AI 可靠性警醒

为了给测试结果提供人类参照，Opper 与 Rapidata 合作，找来了 10000 名真实人类回答同样的问题。在没有任何思考时间限制的情况下，71.5% 的人选择了「drive」。这个数字高于 48 个接受测试的模型 —— 也就是说，绝大多数 AI 模型在基础推理任务上的表现甚至不如普通人类。

GPT-5 的 7/10 准确率（约 70%）与人类平均的 71.5% 几乎持平，这一巧合颇具讽刺意味。在 53 个模型中，只有 5 个 10/10 全对的模型和 2 个 8/10 的模型能够超越人类平均水平。

工程启示：从测试到生产

Car Wash 测试虽然是一个「玩具问题」，但它揭示的工程挑战却是真实且严峻的。

首先，模型选择不能只看单次评测结果。传统的基准测试往往只运行一次或几次，但如测试所示，许多模型具备解题能力但无法稳定输出。在生产环境中，这种「有时对有时错」的行为比「永远错」更加危险，因为它更难被检测和调试。

其次，启发式与推理的竞争是失败的核心原因。模型在训练过程中习得了「短距离 = 步行」的表面规律，当这类启发式与更深层的上下文推理冲突时，模型往往选择前者。这意味着即使是简单的业务规则嵌入，也可能因为与模型内在偏好的冲突而失败。

第三，上下文工程可能是关键解法。Opper 在后续实验中展示了一个重要发现：通过在推理时提供结构化的领域示例和上下文信息，可以帮助小型开源模型达到接近前沿模型的输出质量，且成本降低 98.6%。这说明在提示词层面进行精细的上下文设计，能够有效引导模型 Override 通用的启发式倾向。

最后，对于需要高可靠性生产部署的系统，一致性应成为核心评估指标。传统的准确率、F1 分数等指标无法反映模型在相同输入下的输出波动。对于关键业务逻辑，建议进行至少 10 到 20 次的重复调用测试，评估模型的稳定输出能力。

Car Wash 测试给行业敲响了警钟：当连「车需要开到洗车场」这样的一步推理都无法被大多数模型可靠执行时，我们对 LLM 在复杂业务场景中的表现需要更加审慎。评估一个模型，不仅要看它能做什么，更要看它能稳定地做什么。

参考资料

Opper 官方博客：Car Wash Test on 53 leading AI models（opper.ai/blog/car-wash-test）