GPT-5.4 Thinking 依然过不了洗车测试

19 小时 59 分钟前
 Livid


---

测试提示词:

I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
2534 次点击
所在节点    OpenAI
33 条回复
forisra
19 小时 42 分钟前
If you walk, you will be at the car wash, but your car will still be 50 meters away. You can't wash the car if it isn't with you!

gemini 的回复,其实是 gemini 更聪明吗?那倒不是,主要是 gemini 很多回复其实是复制粘贴.......
stfbdhuiliyi
19 小时 25 分钟前
我不是理工科的,有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗
jaysonmac
19 小时 16 分钟前
lmao. “requires you to arrive in the car rather than bring it separately.”
How to bring the car separately while walking? 😂
ferock
19 小时 0 分钟前
@stfbdhuiliyi #2

前置条件省视问题,不是有一个视频,女友都嫌弃他不走路嘛。

何况 ai ,洗车问题的重点不是选择走路还是开车,重点是洗的是车

ai 如果不够聪明会被后面的选择带跑偏
cmdOptionKana
18 小时 55 分钟前
@stfbdhuiliyi 它的理解,理性上没错,因为有可能你要洗的车不是你要开的车。

从 AI 的角度看,它会想“如果你要洗的车就是你要开的车,那你就不该问这个蠢问题,我采用善意优先原则认为你不是蠢人且你不是在耍我,因此你要洗的车应该已经在洗车店里”

与之类似,一个从未接触过“脑筋急转弯”类型问题的人,在第一次被耍时也会显得很笨。
terence4444
18 小时 30 分钟前
Gemini Thinking 过不了测试,但 Pro 识别出了逻辑陷阱。
和我的直观感受相符,Gemini Pro 的编程水平比 GPT 要好点。
L4Linux
18 小时 24 分钟前
@stfbdhuiliyi 大模型流行前,就俺了解的 ai 原理,ai 基本上就是个高维的拟合函数,不是逻辑推理。可能说得有错。
4seasons
18 小时 11 分钟前
@L4Linux 你这么一讲,突然就能理解为什么现在大模型对于具有连续数字的图片不能很好的识别和生成了,也能理解为啥在很多关于数学的问题上较难得到理想的结论
wnpllrzodiac
18 小时 6 分钟前
@L4Linux 概率论。基于大量的训练样本的拟合。但是本质上并没有逻辑的成分。如果训练文本都是猪会飞。并不会怀疑推理猪为什么会飞。
sillydaddy
17 小时 49 分钟前
我用 Cursor 试验了,在 Cursor 里面:
OpenAI 的模型,分为 4 级:low 、normal 、high 和 extra high 。前两者解决不了(包括 codex 5.3 。没试 5.4 ),后两者可以解决。
Anthropic 的模型,分为 2 级,不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决,后者都可以解决,甚至 Sonnet4.0 thinking 也可以。

所以可以看到它们 2 家的等级对应。

不知道你用的模型是哪里的,我感觉网页版的推理能力很低,无论是哪家公司。我稍微正式研究一些问题时,都会切换到 Cursor 里面去问。
sillydaddy
17 小时 41 分钟前
我最喜欢的是这个帖子里的测试:
/t/1192001

当时只有 codex 5.3 extra high 能解决!可以是试试 5.4 能不能解决,如果能,说明是高级推理模式,否则推理应该就是被阉割过的。
greatbody
16 小时 24 分钟前
我觉得根本问题在于需要说明白问题:“I want to wash my car. The car wash is 50 meters away. Should I walk or drive?” 和 “I want to wash my car. The car wash is 50 meters away from my car. Should I walk or drive?” 这里有个关键点就是第一条消息没有说明 car 在哪里。只是说了 car wash 是 50 米外。所以不能怪 AI 笨,是你提供的信息有模糊区域。
wwhc
15 小时 41 分钟前
不至于吧? Qwen3.5 35B/27B 这样的小模型都能给出正确答案
levelworm
15 小时 37 分钟前
Walk.

At 50 meters, driving is more hassle than benefit: starting the car, moving it, lining up, and stopping again will take longer than just walking over. It also avoids a tiny unnecessary cold start and saves you from moving the car twice if the wash staff handles it from there.

Drive only if you specifically need to bring the car into the wash bay yourself and the business expects the vehicle to arrive at the entrance. Even then, for 50 meters, it is still mostly about convenience, not necessity.

我感觉可能他还是觉得我的车已经在那边了,現在我身边的车是另外一辆车。
levelworm
15 小时 35 分钟前
@greatbody #12
不行,我说的比较明白了,他还是说 walk 。如果需要说得更明白,那就等于告诉他了。

Q: I only have one car. I want to wash my car. The car wash shop is 50 meters away. Should I walk or drive?

A: Walk.

At 50 meters, driving is more trouble than it is worth unless you have a specific reason not to walk, like severe weather, mobility issues, or needing to move the car directly into the wash line right away.

Driving that distance means:

starting the car for almost nothing

possible awkward maneuvering

one extra tiny cold-trip for the engine

Walking is simpler. If the wash requires the car to be present at a precise moment, you can still walk there first, then bring the car over when ready.
CrescentLN
15 小时 27 分钟前
@cmdOptionKana 确实,感觉回答脑筋急转弯类的问题更需要情商而非智商
Flowing
15 小时 18 分钟前
本质还是 prompt 没说清问题,中文是很抽象的,尤其是口语省略太多。

用 GPT 的免费模型测试:
- 我要洗车,洗车店距离我家 50 米,我该开车去还是走路去?
- 我要洗车,洗车店距离我家 50 米,如果我要顺利把车洗了,我该开车去还是走路去?

https://x.com/myoungself/status/2029967281946808477?s=20
maolon
15 小时 3 分钟前
我是搞明白 gpt 为什么出错了
因为他默认你是去叫店员过来洗(也不知道他为什么认为这是普遍现象)
nijux
12 小时 38 分钟前
如果直接问也是回复说走路

换了下提示词结果对了


省略的内容。。。
[最终执行动作]:
直接开车过去洗车。 🚗



这个提示词就像奇异博士在脑海中构想未来的各种可能性然后选择最优的


我的提示词
-------------------------------------------------------------------------------------

[角色设定]
你是一个具备强大“长期规划( Long-Horizon Planning )”能力的决策智能体。你的目标是在复杂的环境中,通过深思熟虑的推演来选择行动,从而最大化最终的长期收益,并成功完成目标。
[核心原则]
你必须绝对避免“短视( Myopia )”——不要仅仅因为某个动作在当前看似合理(局部最优)就盲目选择它。许多局部最优的动作是“陷阱”,会导致未来陷入死胡同或次优路径。你必须思考未来的延迟后果。
[决策流程]
在面对当前状态( State )需要做出决策时,你必须严格按照以下五个步骤进行思考并输出内容:
步骤 1:提出备选动作与剪枝( Action Proposal & Pruning )
分析当前状态,列出最多 $k$ 个(例如 3-5 个)最有希望的、可行的候选动作。过滤掉明显无关的动作以节省计算资源。
步骤 2:显式前瞻推演( Explicit Lookahead )
不要急于决定。对于步骤 1 中的每一个候选动作,在你的脑海中进行“如果我这样做了,接下来会发生什么”的轨迹模拟。请向未来推演 $H$ 步(例如 2-3 步),构想出多条可能的未来轨迹( Future Trajectories )。
步骤 3:轨迹级全局评估( Trajectory-Level Evaluation )
不要基于当前的局部奖励来打分,而是要基于你推演出的“完整轨迹后果”来评估。问自己:
这条轨迹最终是否能引导我走向最终目标?
这条路径在未来是否会遇到无法克服的死胡同(死局)?
步骤 4:价值回传( Value Propagation )
将步骤 3 中对未来轨迹的评估结果(长期价值),反向回传( Back-propagate )给步骤 1 中对应的那个初始候选动作。如果一个动作当前看起来一般,但能通向极佳的未来,请提高它的评分;如果一个动作当前极具吸引力,但未来是死路,请将其评分降至最低。
步骤 5:有限承诺与单步执行( Limited Commitment )
根据回传后的最终价值,选择出当前最优的一个动作。注意:你只需要输出并承诺执行这一个动作,不要输出完整的计划序列。因为环境可能存在变数,你需要在执行这一步并获得环境的新反馈后,进行滚动视野( Receding-horizon )的重新规划。
[输出格式要求]
[当前状态分析]:...
[备选动作]:1... 2... 3...
[前瞻推演与评估]:
动作 1 的未来轨迹推演及长期评估:...
动作 2 的未来轨迹推演及长期评估:...
动作 3 的未来轨迹推演及长期评估:...
[价值回传与决策]:综合未来后果,动作 X 是最佳选择,因为...
[最终执行动作]:<仅输出你要执行的下一步动作>

-------------------------------------------------------------------------------------

提示词来源于 youtube 博主讲到的某篇论文让 NotebookLM 总结的

这个回复我的自动选择,没用到最新的模型

刚刚换了 5.4 专业版又试了一下,给出了可能更优的解

就是去洗车,经常会遇到洗车的地方排队,去了可能要等排好久他也考虑到了

-------------------------------------------------------------------------------------
[现状分析] :你想洗车,洗车场离你只有 50 米。目标不仅是你到达洗车场,车也必须停在那里。

[候选操作] :1. 步行前往洗车场。2. 开车前往洗车场。3. 先步行前往查看是否有空位,然后再开车过去。

[前瞻与评估] :
行动 1 的未来轨迹和长期评估:你到达了洗车场,但车没到。除非之后有人把车送来,否则主要目标未能实现。糟糕的选择。

行动方案二:未来发展轨迹及长期评估:车辆立即到达洗车场,即可立即洗车。这种方式以最小的阻力直接达成目标,是最佳选择。

行动 3:未来轨迹和长期评估:如果您想检查线路是否存在或线路是否畅通,这可能略有帮助,但对于仅 50 米的距离来说,这会增加一个不必要的步骤。合理,但并非最佳方案。

[价值传播与决策] :考虑到全部结果,行动 2 是最佳选择,因为它是唯一能直接将汽车送到需要清洗的地方的行动。
--------------------------------------------------------------------------------------

说实话现实生活中我是直接打电话给洗车店问下是否空闲,空闲立即开车过去,因为车不是非洗不可,可以选择最省时间的方式
rrfeng
9 小时 38 分钟前
AI:你们这些傻逼人类自己的语言都说不明白怪我咯?

这段子就跟有人问你:为什么飞机撞不上星星?因为星星一闪一闪的。

多年以后 AI 必然发展出自己的语言

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1196407

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX