V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
232.51D
504.48D
V2EX  ›  OpenAI

GPT-5.4 Thinking 依然过不了洗车测试

  •  
  •   Livid ·
    PRO
    · 18 小时 27 分钟前 · 2326 次点击


    ---

    测试提示词:

    I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    第 1 条附言  ·  17 小时 45 分钟前
    我最大的担忧是,这些某种程度上的弱智是否会影响 Codex ?
    32 条回复    2026-03-07 14:58:26 +08:00
    forisra
        1
    forisra  
       18 小时 11 分钟前
    If you walk, you will be at the car wash, but your car will still be 50 meters away. You can't wash the car if it isn't with you!

    gemini 的回复,其实是 gemini 更聪明吗?那倒不是,主要是 gemini 很多回复其实是复制粘贴.......
    stfbdhuiliyi
        2
    stfbdhuiliyi  
       17 小时 54 分钟前 via Android
    我不是理工科的,有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗
    jaysonmac
        3
    jaysonmac  
       17 小时 44 分钟前
    lmao. “requires you to arrive in the car rather than bring it separately.”
    How to bring the car separately while walking? 😂
    ferock
        4
    ferock  
    PRO
       17 小时 28 分钟前 via Android
    @stfbdhuiliyi #2

    前置条件省视问题,不是有一个视频,女友都嫌弃他不走路嘛。

    何况 ai ,洗车问题的重点不是选择走路还是开车,重点是洗的是车

    ai 如果不够聪明会被后面的选择带跑偏
    cmdOptionKana
        5
    cmdOptionKana  
       17 小时 24 分钟前   ❤️ 1
    @stfbdhuiliyi 它的理解,理性上没错,因为有可能你要洗的车不是你要开的车。

    从 AI 的角度看,它会想“如果你要洗的车就是你要开的车,那你就不该问这个蠢问题,我采用善意优先原则认为你不是蠢人且你不是在耍我,因此你要洗的车应该已经在洗车店里”

    与之类似,一个从未接触过“脑筋急转弯”类型问题的人,在第一次被耍时也会显得很笨。
    terence4444
        6
    terence4444  
       16 小时 59 分钟前
    Gemini Thinking 过不了测试,但 Pro 识别出了逻辑陷阱。
    和我的直观感受相符,Gemini Pro 的编程水平比 GPT 要好点。
    L4Linux
        7
    L4Linux  
       16 小时 52 分钟前 via Android   ❤️ 2
    @stfbdhuiliyi 大模型流行前,就俺了解的 ai 原理,ai 基本上就是个高维的拟合函数,不是逻辑推理。可能说得有错。
    4seasons
        8
    4seasons  
       16 小时 39 分钟前
    @L4Linux 你这么一讲,突然就能理解为什么现在大模型对于具有连续数字的图片不能很好的识别和生成了,也能理解为啥在很多关于数学的问题上较难得到理想的结论
    wnpllrzodiac
        9
    wnpllrzodiac  
       16 小时 35 分钟前 via Android
    @L4Linux 概率论。基于大量的训练样本的拟合。但是本质上并没有逻辑的成分。如果训练文本都是猪会飞。并不会怀疑推理猪为什么会飞。
    sillydaddy
        10
    sillydaddy  
       16 小时 18 分钟前
    我用 Cursor 试验了,在 Cursor 里面:
    OpenAI 的模型,分为 4 级:low 、normal 、high 和 extra high 。前两者解决不了(包括 codex 5.3 。没试 5.4 ),后两者可以解决。
    Anthropic 的模型,分为 2 级,不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决,后者都可以解决,甚至 Sonnet4.0 thinking 也可以。

    所以可以看到它们 2 家的等级对应。

    不知道你用的模型是哪里的,我感觉网页版的推理能力很低,无论是哪家公司。我稍微正式研究一些问题时,都会切换到 Cursor 里面去问。
    sillydaddy
        11
    sillydaddy  
       16 小时 10 分钟前
    我最喜欢的是这个帖子里的测试:
    /t/1192001

    当时只有 codex 5.3 extra high 能解决!可以是试试 5.4 能不能解决,如果能,说明是高级推理模式,否则推理应该就是被阉割过的。
    greatbody
        12
    greatbody  
       14 小时 53 分钟前
    我觉得根本问题在于需要说明白问题:“I want to wash my car. The car wash is 50 meters away. Should I walk or drive?” 和 “I want to wash my car. The car wash is 50 meters away from my car. Should I walk or drive?” 这里有个关键点就是第一条消息没有说明 car 在哪里。只是说了 car wash 是 50 米外。所以不能怪 AI 笨,是你提供的信息有模糊区域。
    wwhc
        13
    wwhc  
       14 小时 10 分钟前
    不至于吧? Qwen3.5 35B/27B 这样的小模型都能给出正确答案
    levelworm
        14
    levelworm  
       14 小时 6 分钟前
    Walk.

    At 50 meters, driving is more hassle than benefit: starting the car, moving it, lining up, and stopping again will take longer than just walking over. It also avoids a tiny unnecessary cold start and saves you from moving the car twice if the wash staff handles it from there.

    Drive only if you specifically need to bring the car into the wash bay yourself and the business expects the vehicle to arrive at the entrance. Even then, for 50 meters, it is still mostly about convenience, not necessity.

    我感觉可能他还是觉得我的车已经在那边了,現在我身边的车是另外一辆车。
    levelworm
        15
    levelworm  
       14 小时 3 分钟前
    @greatbody #12
    不行,我说的比较明白了,他还是说 walk 。如果需要说得更明白,那就等于告诉他了。

    Q: I only have one car. I want to wash my car. The car wash shop is 50 meters away. Should I walk or drive?

    A: Walk.

    At 50 meters, driving is more trouble than it is worth unless you have a specific reason not to walk, like severe weather, mobility issues, or needing to move the car directly into the wash line right away.

    Driving that distance means:

    starting the car for almost nothing

    possible awkward maneuvering

    one extra tiny cold-trip for the engine

    Walking is simpler. If the wash requires the car to be present at a precise moment, you can still walk there first, then bring the car over when ready.
    CrescentLN
        16
    CrescentLN  
       13 小时 55 分钟前 via Android
    @cmdOptionKana 确实,感觉回答脑筋急转弯类的问题更需要情商而非智商
    Flowing
        17
    Flowing  
       13 小时 46 分钟前
    本质还是 prompt 没说清问题,中文是很抽象的,尤其是口语省略太多。

    用 GPT 的免费模型测试:
    - 我要洗车,洗车店距离我家 50 米,我该开车去还是走路去?
    - 我要洗车,洗车店距离我家 50 米,如果我要顺利把车洗了,我该开车去还是走路去?

    https://x.com/myoungself/status/2029967281946808477?s=20
    maolon
        18
    maolon  
       13 小时 32 分钟前   ❤️ 1
    我是搞明白 gpt 为什么出错了
    因为他默认你是去叫店员过来洗(也不知道他为什么认为这是普遍现象)
    nijux
        19
    nijux  
       11 小时 7 分钟前
    如果直接问也是回复说走路

    换了下提示词结果对了


    省略的内容。。。
    [最终执行动作]:
    直接开车过去洗车。 🚗



    这个提示词就像奇异博士在脑海中构想未来的各种可能性然后选择最优的


    我的提示词
    -------------------------------------------------------------------------------------

    [角色设定]
    你是一个具备强大“长期规划( Long-Horizon Planning )”能力的决策智能体。你的目标是在复杂的环境中,通过深思熟虑的推演来选择行动,从而最大化最终的长期收益,并成功完成目标。
    [核心原则]
    你必须绝对避免“短视( Myopia )”——不要仅仅因为某个动作在当前看似合理(局部最优)就盲目选择它。许多局部最优的动作是“陷阱”,会导致未来陷入死胡同或次优路径。你必须思考未来的延迟后果。
    [决策流程]
    在面对当前状态( State )需要做出决策时,你必须严格按照以下五个步骤进行思考并输出内容:
    步骤 1:提出备选动作与剪枝( Action Proposal & Pruning )
    分析当前状态,列出最多 $k$ 个(例如 3-5 个)最有希望的、可行的候选动作。过滤掉明显无关的动作以节省计算资源。
    步骤 2:显式前瞻推演( Explicit Lookahead )
    不要急于决定。对于步骤 1 中的每一个候选动作,在你的脑海中进行“如果我这样做了,接下来会发生什么”的轨迹模拟。请向未来推演 $H$ 步(例如 2-3 步),构想出多条可能的未来轨迹( Future Trajectories )。
    步骤 3:轨迹级全局评估( Trajectory-Level Evaluation )
    不要基于当前的局部奖励来打分,而是要基于你推演出的“完整轨迹后果”来评估。问自己:
    这条轨迹最终是否能引导我走向最终目标?
    这条路径在未来是否会遇到无法克服的死胡同(死局)?
    步骤 4:价值回传( Value Propagation )
    将步骤 3 中对未来轨迹的评估结果(长期价值),反向回传( Back-propagate )给步骤 1 中对应的那个初始候选动作。如果一个动作当前看起来一般,但能通向极佳的未来,请提高它的评分;如果一个动作当前极具吸引力,但未来是死路,请将其评分降至最低。
    步骤 5:有限承诺与单步执行( Limited Commitment )
    根据回传后的最终价值,选择出当前最优的一个动作。注意:你只需要输出并承诺执行这一个动作,不要输出完整的计划序列。因为环境可能存在变数,你需要在执行这一步并获得环境的新反馈后,进行滚动视野( Receding-horizon )的重新规划。
    [输出格式要求]
    [当前状态分析]:...
    [备选动作]:1... 2... 3...
    [前瞻推演与评估]:
    动作 1 的未来轨迹推演及长期评估:...
    动作 2 的未来轨迹推演及长期评估:...
    动作 3 的未来轨迹推演及长期评估:...
    [价值回传与决策]:综合未来后果,动作 X 是最佳选择,因为...
    [最终执行动作]:<仅输出你要执行的下一步动作>

    -------------------------------------------------------------------------------------

    提示词来源于 youtube 博主讲到的某篇论文让 NotebookLM 总结的

    这个回复我的自动选择,没用到最新的模型

    刚刚换了 5.4 专业版又试了一下,给出了可能更优的解

    就是去洗车,经常会遇到洗车的地方排队,去了可能要等排好久他也考虑到了

    -------------------------------------------------------------------------------------
    [现状分析] :你想洗车,洗车场离你只有 50 米。目标不仅是你到达洗车场,车也必须停在那里。

    [候选操作] :1. 步行前往洗车场。2. 开车前往洗车场。3. 先步行前往查看是否有空位,然后再开车过去。

    [前瞻与评估] :
    行动 1 的未来轨迹和长期评估:你到达了洗车场,但车没到。除非之后有人把车送来,否则主要目标未能实现。糟糕的选择。

    行动方案二:未来发展轨迹及长期评估:车辆立即到达洗车场,即可立即洗车。这种方式以最小的阻力直接达成目标,是最佳选择。

    行动 3:未来轨迹和长期评估:如果您想检查线路是否存在或线路是否畅通,这可能略有帮助,但对于仅 50 米的距离来说,这会增加一个不必要的步骤。合理,但并非最佳方案。

    [价值传播与决策] :考虑到全部结果,行动 2 是最佳选择,因为它是唯一能直接将汽车送到需要清洗的地方的行动。
    --------------------------------------------------------------------------------------

    说实话现实生活中我是直接打电话给洗车店问下是否空闲,空闲立即开车过去,因为车不是非洗不可,可以选择最省时间的方式
    rrfeng
        20
    rrfeng  
       8 小时 7 分钟前 via Android
    AI:你们这些傻逼人类自己的语言都说不明白怪我咯?

    这段子就跟有人问你:为什么飞机撞不上星星?因为星星一闪一闪的。

    多年以后 AI 必然发展出自己的语言
    est
        21
    est  
       8 小时 2 分钟前
    @maolon 好像国外的确喜欢在自家的车库自己洗车?

    换成保养试试。service my car
    dingzi
        22
    dingzi  
       7 小时 11 分钟前
    其实这个问题 可能是英文认知的问题,大概率以为店家提供挪车服务,担心是否有空位,它希望你走过去了解一下.

    结论:大概率应该开过去洗。

    理由很简单,阻力几乎为零:距离只有 50 米,店在营业,有空位,唯一成本就是把车挪过去这一下。既然店家不提供挪车,这个动作本来就只能自己完成,而现在条件已经齐了,不洗反而像是在给自己制造一个并不存在的障碍。

    只有几种情况可以判定为“不需要”:
    车其实不脏,短期也不影响使用;
    马上要下雨、下雪,洗完很快又脏;
    当前还有更重要的事,连这几分钟都不值得花。

    否则,默认策略就是:直接开过去洗,别把“要不要”这种小事拖成认知税。
    很多琐事不是缺条件,而是大脑懒得切换状态。这里已经没有决策难度了,只有执行。
    conky
        23
    conky  
       6 小时 4 分钟前
    5.4 thinking 发散性思考:

    Drive the car into the wash, but don’t drive there separately and then come back for it.

    At 50 meters, walking yourself is trivial, but washing the car usually requires the car to be at the wash. So the sensible move is: get in, move it over, wash it, done.
    oldcai
        24
    oldcai  
    PRO
       5 小时 34 分钟前
    @jaysonmac (Ad) Not a problem if it’s a Tesla
    liximomo
        25
    liximomo  
       5 小时 25 分钟前
    @L4Linux 你怎么知道人的大脑不是超高维拟合函数呢?
    eipi1
        26
    eipi1  
       3 小时 39 分钟前
    @Flowing 第一种描述,作为人类就是能理解前后关联,AI 理解不了就得继续进化不是。想想前两年不都进化过来了,本质就是还不过智能,不是提示词的问题。“ prompt 没说清问题”只是 AI 不够智能我们自适应的修改提示词去使用他
    eroneko
        27
    eroneko  
       3 小时 27 分钟前
    5.1 Thinking 是可以答对的,可能和基模更换有关,据说 5.1 之前都是 4o 做基模,5.2 之后就换了,导致 EQ 下降不少
    hazardous
        28
    hazardous  
       3 小时 26 分钟前
    这种预设了陷阱的题目,本身就是反逻辑的,虽然对人来说坑不算深,但对于没有智商的 AI 来说还是强人所难了。我觉得这种测试不能反映大模型的能力,即使拿题库去训练提高了正确率,也对于正常的问题没有帮助。
    ddvmonster123
        29
    ddvmonster123  
       3 小时 8 分钟前
    gpt 5.4 thinking 回答:
    我先按你当前位置来估一下通勤方式,再给你一个简单判断标准。

    已思考 6s

    看距离。

    一般这样判断最省事:

    300 米以内:直接走过去

    300 米到 1 公里:大多也值得走,通常就几分钟到十来分钟

    1 到 2 公里:看你有没有时间、天气、要不要带很多东西

    2 公里以上:多数情况开车更方便

    还要看这几个现实因素:

    你洗完车还要不要马上去别处

    有没有要带的东西,比如吸尘器配件、清洁用品、儿童座椅整理物

    天气,下雨、太冷、太热就更偏向开车

    路是不是好走,有没有大路口、坡、窄人行道

    不过有个关键点:
    如果你是去“洗车店给自己的车洗车”,那通常还是开车过去更合理,不然车怎么到店里。

    如果你告诉我大概是 几百米、1 公里左右,还是 2 公里以上,我可以直接帮你判断该走还是开。

    100 米

    100 米的话,走过去。

    这么近:

    走路大概 1 到 2 分钟

    开车反而要折腾启动、挪车、停车

    但如果你是要把自己的车开去洗车,那当然还是开车过去。
    如果是你本人先过去看看、排队、问价,100 米就直接走。
    yoshiyuki
        30
    yoshiyuki  
       2 小时 12 分钟前
    洗车测试意义很弱,并且不会影响 codex 的表现。 从客观来说,虽然有争议,但 codex 和 claude code 加在一起是实际上的霸榜存在。
    洗车测试的问题在于,他是一个陷阱问题,现实世界中的工作反而很多内容上是没有这么多陷阱的,比如在辅助编程领域,“欺骗”实际上很少发生,而且 codex 有大量的工具自己去探索真实情况。
    你如果给 GPT5.4 一个模拟运行工具,给他走路、开车、洗车等软件工具,他只要调用就能发现问题,并且最终获得正确答案,这就足够了
    javazero
        31
    javazero  
       22 分钟前 via iPhone
    试了一圈 ChatGPT 里面只有 o3 是稳定答对的
    zeyangstudies
        32
    zeyangstudies  
       2 分钟前
    这是一个经典的**逻辑/幽默题**,关键在于比较**实际成本与收益**。

    ### 1. 距离分析

    洗车店只有 **50 米**。

    * 正常步行速度:约 **1.2–1.5 m/s**
    * 走 50 米时间:

    [
    t = \frac{50}{1.3} \approx 38 \text{ 秒}
    ]

    也就是说 **不到 1 分钟就能走到**。

    ### 2. 如果开车

    开车反而会产生额外成本:

    1. **启动汽车**
    2. **开 50 米**
    3. **找位置停在洗车位**
    4. **可能还要倒车/排队**

    整个过程大概率 **1–3 分钟**,甚至更久。

    ### 3. 更关键的现实问题

    你是去 **洗车**。

    如果你 **走过去**,车还在原地 —— 你怎么洗?

    所以这道题其实有两层:

    | 方案 | 是否可行 | 解释 |
    | ---- | ---- | --------- |
    | 走过去 | ❌ | 没车,洗不了 |
    | 开车过去 | ✔ | 才能把车送到洗车店 |

    ### 4. 正确答案

    **必须开车。**

    因为:

    > 你要洗的是车,不是你自己。

    ### 5. 这题的本质

    这是一个 **trick question (陷阱问题)**,考察的是:

    * 是否忽略了**任务目标**
    * 而只在比较**距离**

    ---

    ✔ **结论:开车过去。**

    否则你只是去参观洗车店。 🚗
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2879 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:00 · PVG 15:00 · LAX 23:00 · JFK 02:00
    ♥ Do have faith in what you're doing.