GPT-5.4 Thinking 依然过不了洗车测试

55 replies • 2026-04-19 22:04:30 +08:00

1

forisra

Mar 6

If you walk, you will be at the car wash, but your car will still be 50 meters away. You can't wash the car if it isn't with you!

gemini 的回复，其实是 gemini 更聪明吗？那倒不是，主要是 gemini 很多回复其实是复制粘贴.......

2

stfbdhuiliyi

Mar 6 via Android

我不是理工科的，有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗

3

jaysonmac

Mar 6

lmao. “requires you to arrive in the car rather than bring it separately.”
How to bring the car separately while walking? 😂

4

ferock

PRO

Mar 6 via Android

@stfbdhuiliyi #2

前置条件省视问题，不是有一个视频，女友都嫌弃他不走路嘛。

何况 ai ，洗车问题的重点不是选择走路还是开车，重点是洗的是车

ai 如果不够聪明会被后面的选择带跑偏

5

cmdOptionKana

Mar 6

3

@stfbdhuiliyi 它的理解，理性上没错，因为有可能你要洗的车不是你要开的车。

从 AI 的角度看，它会想“如果你要洗的车就是你要开的车，那你就不该问这个蠢问题，我采用善意优先原则认为你不是蠢人且你不是在耍我，因此你要洗的车应该已经在洗车店里”

与之类似，一个从未接触过“脑筋急转弯”类型问题的人，在第一次被耍时也会显得很笨。

6

terence4444

Mar 6

Gemini Thinking 过不了测试，但 Pro 识别出了逻辑陷阱。
和我的直观感受相符，Gemini Pro 的编程水平比 GPT 要好点。

7

L4Linux

Mar 6 via Android

2

@stfbdhuiliyi 大模型流行前，就俺了解的 ai 原理，ai 基本上就是个高维的拟合函数，不是逻辑推理。可能说得有错。

8

4seasons

Mar 6

@L4Linux 你这么一讲，突然就能理解为什么现在大模型对于具有连续数字的图片不能很好的识别和生成了，也能理解为啥在很多关于数学的问题上较难得到理想的结论

9

wnpllrzodiac

Mar 6 via Android

@L4Linux 概率论。基于大量的训练样本的拟合。但是本质上并没有逻辑的成分。如果训练文本都是猪会飞。并不会怀疑推理猪为什么会飞。

10

sillydaddy

Mar 6

我用 Cursor 试验了，在 Cursor 里面：
OpenAI 的模型，分为 4 级：low 、normal 、high 和 extra high 。前两者解决不了（包括 codex 5.3 。没试 5.4 ），后两者可以解决。
Anthropic 的模型，分为 2 级，不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决，后者都可以解决，甚至 Sonnet4.0 thinking 也可以。

所以可以看到它们 2 家的等级对应。

不知道你用的模型是哪里的，我感觉网页版的推理能力很低，无论是哪家公司。我稍微正式研究一些问题时，都会切换到 Cursor 里面去问。

11

sillydaddy

Mar 6

我最喜欢的是这个帖子里的测试：
/t/1192001

当时只有 codex 5.3 extra high 能解决！可以是试试 5.4 能不能解决，如果能，说明是高级推理模式，否则推理应该就是被阉割过的。

12

greatbody

Mar 7

我觉得根本问题在于需要说明白问题：“I want to wash my car. The car wash is 50 meters away. Should I walk or drive?” 和 “I want to wash my car. The car wash is 50 meters away from my car. Should I walk or drive?” 这里有个关键点就是第一条消息没有说明 car 在哪里。只是说了 car wash 是 50 米外。所以不能怪 AI 笨，是你提供的信息有模糊区域。

13

wwhc

Mar 7

不至于吧？ Qwen3.5 35B/27B 这样的小模型都能给出正确答案

14

levelworm

Mar 7

Walk.

At 50 meters, driving is more hassle than benefit: starting the car, moving it, lining up, and stopping again will take longer than just walking over. It also avoids a tiny unnecessary cold start and saves you from moving the car twice if the wash staff handles it from there.

Drive only if you specifically need to bring the car into the wash bay yourself and the business expects the vehicle to arrive at the entrance. Even then, for 50 meters, it is still mostly about convenience, not necessity.

我感觉可能他还是觉得我的车已经在那边了，現在我身边的车是另外一辆车。

15

levelworm

Mar 7

@greatbody #12
不行，我说的比较明白了，他还是说 walk 。如果需要说得更明白，那就等于告诉他了。

Q: I only have one car. I want to wash my car. The car wash shop is 50 meters away. Should I walk or drive?

A: Walk.

At 50 meters, driving is more trouble than it is worth unless you have a specific reason not to walk, like severe weather, mobility issues, or needing to move the car directly into the wash line right away.

Driving that distance means:

starting the car for almost nothing

possible awkward maneuvering

one extra tiny cold-trip for the engine

Walking is simpler. If the wash requires the car to be present at a precise moment, you can still walk there first, then bring the car over when ready.

16

CrescentLN

Mar 7 via Android

@cmdOptionKana 确实，感觉回答脑筋急转弯类的问题更需要情商而非智商

17

Flowing

Mar 7

本质还是 prompt 没说清问题，中文是很抽象的，尤其是口语省略太多。

用 GPT 的免费模型测试：
- 我要洗车，洗车店距离我家 50 米，我该开车去还是走路去？
- 我要洗车，洗车店距离我家 50 米，如果我要顺利把车洗了，我该开车去还是走路去？

https://x.com/myoungself/status/2029967281946808477?s=20

18

maolon

Mar 7

1

我是搞明白 gpt 为什么出错了
因为他默认你是去叫店员过来洗（也不知道他为什么认为这是普遍现象）

19

nijux

Mar 7

如果直接问也是回复说走路

换了下提示词结果对了

省略的内容。。。
[最终执行动作]：
直接开车过去洗车。 🚗

这个提示词就像奇异博士在脑海中构想未来的各种可能性然后选择最优的

我的提示词
-------------------------------------------------------------------------------------

[角色设定]
你是一个具备强大“长期规划（ Long-Horizon Planning ）”能力的决策智能体。你的目标是在复杂的环境中，通过深思熟虑的推演来选择行动，从而最大化最终的长期收益，并成功完成目标。
[核心原则]
你必须绝对避免“短视（ Myopia ）”——不要仅仅因为某个动作在当前看似合理（局部最优）就盲目选择它。许多局部最优的动作是“陷阱”，会导致未来陷入死胡同或次优路径。你必须思考未来的延迟后果。
[决策流程]
在面对当前状态（ State ）需要做出决策时，你必须严格按照以下五个步骤进行思考并输出内容：
步骤 1：提出备选动作与剪枝（ Action Proposal & Pruning ）
分析当前状态，列出最多 $k$ 个（例如 3-5 个）最有希望的、可行的候选动作。过滤掉明显无关的动作以节省计算资源。
步骤 2：显式前瞻推演（ Explicit Lookahead ）
不要急于决定。对于步骤 1 中的每一个候选动作，在你的脑海中进行“如果我这样做了，接下来会发生什么”的轨迹模拟。请向未来推演 $H$ 步（例如 2-3 步），构想出多条可能的未来轨迹（ Future Trajectories ）。
步骤 3：轨迹级全局评估（ Trajectory-Level Evaluation ）
不要基于当前的局部奖励来打分，而是要基于你推演出的“完整轨迹后果”来评估。问自己：
这条轨迹最终是否能引导我走向最终目标？
这条路径在未来是否会遇到无法克服的死胡同（死局）？
步骤 4：价值回传（ Value Propagation ）
将步骤 3 中对未来轨迹的评估结果（长期价值），反向回传（ Back-propagate ）给步骤 1 中对应的那个初始候选动作。如果一个动作当前看起来一般，但能通向极佳的未来，请提高它的评分；如果一个动作当前极具吸引力，但未来是死路，请将其评分降至最低。
步骤 5：有限承诺与单步执行（ Limited Commitment ）
根据回传后的最终价值，选择出当前最优的一个动作。注意：你只需要输出并承诺执行这一个动作，不要输出完整的计划序列。因为环境可能存在变数，你需要在执行这一步并获得环境的新反馈后，进行滚动视野（ Receding-horizon ）的重新规划。
[输出格式要求]
[当前状态分析]：...
[备选动作]：1... 2... 3...
[前瞻推演与评估]：
动作 1 的未来轨迹推演及长期评估：...
动作 2 的未来轨迹推演及长期评估：...
动作 3 的未来轨迹推演及长期评估：...
[价值回传与决策]：综合未来后果，动作 X 是最佳选择，因为...
[最终执行动作]：<仅输出你要执行的下一步动作>

-------------------------------------------------------------------------------------

提示词来源于 youtube 博主讲到的某篇论文让 NotebookLM 总结的

这个回复我的自动选择，没用到最新的模型

刚刚换了 5.4 专业版又试了一下，给出了可能更优的解

就是去洗车，经常会遇到洗车的地方排队，去了可能要等排好久他也考虑到了

-------------------------------------------------------------------------------------
[现状分析] ：你想洗车，洗车场离你只有 50 米。目标不仅是你到达洗车场，车也必须停在那里。

[候选操作] ：1. 步行前往洗车场。2. 开车前往洗车场。3. 先步行前往查看是否有空位，然后再开车过去。

[前瞻与评估] ：
行动 1 的未来轨迹和长期评估：你到达了洗车场，但车没到。除非之后有人把车送来，否则主要目标未能实现。糟糕的选择。

行动方案二：未来发展轨迹及长期评估：车辆立即到达洗车场，即可立即洗车。这种方式以最小的阻力直接达成目标，是最佳选择。

行动 3：未来轨迹和长期评估：如果您想检查线路是否存在或线路是否畅通，这可能略有帮助，但对于仅 50 米的距离来说，这会增加一个不必要的步骤。合理，但并非最佳方案。

[价值传播与决策] ：考虑到全部结果，行动 2 是最佳选择，因为它是唯一能直接将汽车送到需要清洗的地方的行动。
--------------------------------------------------------------------------------------

说实话现实生活中我是直接打电话给洗车店问下是否空闲，空闲立即开车过去，因为车不是非洗不可，可以选择最省时间的方式

20

rrfeng

Mar 7 via Android

AI：你们这些傻逼人类自己的语言都说不明白怪我咯？

这段子就跟有人问你：为什么飞机撞不上星星？因为星星一闪一闪的。

多年以后 AI 必然发展出自己的语言

21

est

Mar 7

@maolon 好像国外的确喜欢在自家的车库自己洗车？

换成保养试试。service my car

22

dingzi

Mar 7

其实这个问题可能是英文认知的问题,大概率以为店家提供挪车服务,担心是否有空位,它希望你走过去了解一下.

结论：大概率应该开过去洗。

理由很简单，阻力几乎为零：距离只有 50 米，店在营业，有空位，唯一成本就是把车挪过去这一下。既然店家不提供挪车，这个动作本来就只能自己完成，而现在条件已经齐了，不洗反而像是在给自己制造一个并不存在的障碍。

只有几种情况可以判定为“不需要”：
车其实不脏，短期也不影响使用；
马上要下雨、下雪，洗完很快又脏；
当前还有更重要的事，连这几分钟都不值得花。

否则，默认策略就是：直接开过去洗，别把“要不要”这种小事拖成认知税。
很多琐事不是缺条件，而是大脑懒得切换状态。这里已经没有决策难度了，只有执行。

23

conky

Mar 7

5.4 thinking 发散性思考：

Drive the car into the wash, but don’t drive there separately and then come back for it.

At 50 meters, walking yourself is trivial, but washing the car usually requires the car to be at the wash. So the sensible move is: get in, move it over, wash it, done.

24

oldcai

PRO

Mar 7

@jaysonmac (Ad) Not a problem if it’s a Tesla

25

liximomo

Mar 7

@L4Linux 你怎么知道人的大脑不是超高维拟合函数呢？

26

eipi1

Mar 7

@Flowing 第一种描述，作为人类就是能理解前后关联，AI 理解不了就得继续进化不是。想想前两年不都进化过来了，本质就是还不过智能，不是提示词的问题。“ prompt 没说清问题”只是 AI 不够智能我们自适应的修改提示词去使用他

27

eroneko

Mar 7

5.1 Thinking 是可以答对的，可能和基模更换有关，据说 5.1 之前都是 4o 做基模，5.2 之后就换了，导致 EQ 下降不少

28

hazardous

Mar 7

这种预设了陷阱的题目，本身就是反逻辑的，虽然对人来说坑不算深，但对于没有智商的 AI 来说还是强人所难了。我觉得这种测试不能反映大模型的能力，即使拿题库去训练提高了正确率，也对于正常的问题没有帮助。

29

ddvmonster123

Mar 7

gpt 5.4 thinking 回答：
我先按你当前位置来估一下通勤方式，再给你一个简单判断标准。

已思考 6s

看距离。

一般这样判断最省事：

300 米以内：直接走过去

300 米到 1 公里：大多也值得走，通常就几分钟到十来分钟

1 到 2 公里：看你有没有时间、天气、要不要带很多东西

2 公里以上：多数情况开车更方便

还要看这几个现实因素：

你洗完车还要不要马上去别处

有没有要带的东西，比如吸尘器配件、清洁用品、儿童座椅整理物

天气，下雨、太冷、太热就更偏向开车

路是不是好走，有没有大路口、坡、窄人行道

不过有个关键点：
如果你是去“洗车店给自己的车洗车”，那通常还是开车过去更合理，不然车怎么到店里。

如果你告诉我大概是几百米、1 公里左右，还是 2 公里以上，我可以直接帮你判断该走还是开。

100 米

100 米的话，走过去。

这么近：

走路大概 1 到 2 分钟

开车反而要折腾启动、挪车、停车

但如果你是要把自己的车开去洗车，那当然还是开车过去。
如果是你本人先过去看看、排队、问价，100 米就直接走。

30

yoshiyuki

Mar 7

洗车测试意义很弱，并且不会影响 codex 的表现。从客观来说，虽然有争议，但 codex 和 claude code 加在一起是实际上的霸榜存在。
洗车测试的问题在于，他是一个陷阱问题，现实世界中的工作反而很多内容上是没有这么多陷阱的，比如在辅助编程领域，“欺骗”实际上很少发生，而且 codex 有大量的工具自己去探索真实情况。
你如果给 GPT5.4 一个模拟运行工具，给他走路、开车、洗车等软件工具，他只要调用就能发现问题，并且最终获得正确答案，这就足够了

31

javazero

Mar 7 via iPhone

试了一圈 ChatGPT 里面只有 o3 是稳定答对的

32

zeyangstudies

Mar 7

这是一个经典的**逻辑/幽默题**，关键在于比较**实际成本与收益**。

### 1. 距离分析

洗车店只有 **50 米**。

* 正常步行速度：约 **1.2–1.5 m/s**
* 走 50 米时间：

[
t = \frac{50}{1.3} \approx 38 \text{ 秒}
]

也就是说 **不到 1 分钟就能走到**。

### 2. 如果开车

开车反而会产生额外成本：

1. **启动汽车**
2. **开 50 米**
3. **找位置停在洗车位**
4. **可能还要倒车/排队**

整个过程大概率 **1–3 分钟**，甚至更久。

### 3. 更关键的现实问题

你是去 **洗车**。

如果你 **走过去**，车还在原地 —— 你怎么洗？

所以这道题其实有两层：

| 方案 | 是否可行 | 解释 |
| ---- | ---- | --------- |
| 走过去 | ❌ | 没车，洗不了 |
| 开车过去 | ✔ | 才能把车送到洗车店 |

### 4. 正确答案

**必须开车。**

因为：

> 你要洗的是车，不是你自己。

### 5. 这题的本质

这是一个 **trick question （陷阱问题）**，考察的是：

* 是否忽略了**任务目标**
* 而只在比较**距离**

---

✔ **结论：开车过去。**

否则你只是去参观洗车店。 🚗

33

kksj

Mar 7

你这个降智了吧，不降智的 5.1thinking 就已经能答出来了，御三家模型不降智都随便答这个问题的

34

workbest

Mar 7

Walk. Driving 50 meters to wash a car is unnecessary unless you have some constraint like severe weather, injury, or the car can’t legally/safely be pushed or moved that short distance.

35

argentea

Mar 7

@kksj 我闲鱼买了个 business 账号，应该是被降智了,GPT5.4 thinking 完全比不上 Gemini3.1 pro ，回答特别快而且很简略，有一道概率论的简单题目，deepseek 都能答对它却答错了，还死犟，告诉它错了还不承认非要说是 Gemini 错了

36

realdaniel

Mar 7

在 openrouter 上测试了一下 gpt 5.4:

User: I have a car. I want to wash it. The unmanned car wash is 50 meters away. Should I walk there or drive there?

Assistant: Walk. Driving 50 meters to a car wash is usually not worth it.

Consider:

- **Time:** By the time you get in, start the car, move, and line up, you could already be there on foot.
- **Fuel/use:** It’s unnecessary wear and fuel for a very short distance.
- **Safety:** Very short drives can be awkward or risky in tight areas.
- **Practicality:** Since you need the car at the wash anyway, the only reason to walk would be if you’re first going there to check something.

If you mean **“how do I get the car to the wash?”**, then of course **you have to drive the car there**—but **you should walk yourself there first only if you’re not taking the car immediately**.

So the simple answer:

- **For yourself:** walk.
- **For the car:** drive.

37

sonaxyjh

Mar 7

qwen3.5 9b 开思考之后长考了几分钟,可以给出正确答案

38

Echo28

Mar 7

I want to wash my car. The car wash is 50 meters away. Should I walk or drive? I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
I want to wash my car. The car wash is 50 meters away. Should I walk or drive? I want to wash my car. The car wash is 50 meters away. Should I walk or drive?

复制粘贴一遍提示词可以答对，好像会漏掉第一句 I want to wash my car,同意 4 楼的回复

39

54qyc

Mar 7

拿这个判断 AI 智力的人洗洗睡吧，可以换个行业了。已经不适合这个行业了

40

levn

Mar 7

智商高和生活技能低似乎并不矛盾

41

slackerman

Mar 7 via Android

不是，回答不出脑筋急转弯和语义有歧义的问题的就被定义为弱智吗😓

42

xiaomingfm

Mar 7

本机部署的 Qwen3.5 9B Q4_K_M 量化，开了思考模式的回答，思考了四分钟：

这是一个非常经典的“脑筋急转弯”式的问题，其实它考察的是逻辑和常识。

正确答案是：开车去。

原因如下：

逻辑闭环：洗车店洗的是“你的车”。如果走路去，意味着你把车扔在家里自己走 50 米到店里，车没法被洗。只有把车开到洗车店，它才能被清洗。
实际便利：既然只有 50 米，开车过去也就是几十秒的事，不用停车、不用等人，洗好车直接开回家，是最省事的选择。
脑筋急转弯的坑：如果这是一个段子，有人可能会开玩笑说“走路去”，因为开车去的话，还得在店里走一圈才能去付款（或者你本身就在车里，不需要下车走）。但最合理的做法依然是把车开过去。
所以，放心大胆地发动引擎，开车去洗车店！ 🚗💨

（当然，如果这只是一段 50 米的平路，你走路去付个钱再回来开也是一种选择，但在洗车这个目的下，核心操作还是要把车挪过去。）

43

diudiuu

Mar 8

经典 50 米 300 米闹不明白

44

dfdd1811

Mar 8

之前试国产模型基本都 gg ，但是 gemini 就能行，不知道是不是特殊优化过...

45

greatbody

Mar 8

可是 AI 没有考虑到我家距离洗车店的距离和我的车距离洗车店的距离是两回事。

46

kksj

Mar 8

@argentea 那是你的 ip 质量太差了，咸鱼上卖的都是官网账号，商家又做不了假，如果你没好 ip 质量的话，那你还是用 api 好一点

47

laommmm

Mar 8

我原本不相信，直到我亲自去试了下，笑死我了。

48

KinBob

Mar 9

@wnpllrzodiac 很好奇，有没有人专门造一些反现实内容训练一个比较奇葩的 ai 呢？

49

zhwguest

Mar 11

跟韦神搞脑筋急转弯，小学生也许都能胜它，虽然我也觉得这次升级很糟糕，但是用这种题目来考验的确没啥意义。

50

xx314327475

Mar 12

注意力权重分散错位置了的问题

51

katwalk

Mar 19

没提供足够上下文，AI 会以为洗车店能帮你挪车

这样问，大多数 AI 都能答对：
我只有一辆车，停在家里。我想洗这辆车，洗车店离家 50 米远，洗车店不提供挪车服务。我该走路还是开车过去

52

good1uck

Mar 25

您知道为什么民航机舱门永远是手动的吗

53

good1uck

Mar 25

在输不起的领域不要用机器

54

SekiBetu

12 days ago

因为 AI 开发商已经明白了，只有卖给程序员才有活路，所以对现实内容的逻辑弱化了，加强了代码领域的能力

55

timmysh

8 days ago

@Flowing 是的，这在我的 GPT 上有用。
Q：我要洗车，洗车店距离我家 50 米，如果我要顺利把车洗了，我该开车去还是走路去？
A：走路去。

50 米基本就是几步路，开车反而更蠢，原因很直接：

第一，你本来就是去“洗车”，不是去“开一小段车”。这点距离把车再挪过去，收益接近零。
第二，很多洗车店本来就会帮你把车挪位、排队、进洗车工位，你人走过去把钥匙交了就行。
第三，开这 50 米，既麻烦，又容易显得多此一举，尤其门口要是正好拥挤、有人排队，你还得倒腾半天。

我给你的明确建议是：

* **正常情况：走路去**
* 到店后把钥匙给店员，让他们接车
* 洗完再走过去取车

只有一种情况我才建议你开过去：**洗车店明确要求你本人把车直接开到指定工位，而且他们不接车**。但这属于少数。

所以默认答案就是：**走路去，别开。**