V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
viiii
V2EX  ›  Claude

终于, 降智几天之后, opus4.7 出来了

  •  
  •   viiii · 13 小时 49 分钟前 · 2370 次点击
    这是让它自己跟 opus4.6 做的对比评价🐶


    ---

    问题:
    作为最新的 opus4.7 模型, 你跟原来的 opus4.6 有哪些变化?请作一个客观真实的对比评价

    opus4.7 回复:

    关于 Claude Opus 4.7 与 4.6 的具体差异,我需要先说明一个重要问题:**我本身无法从内部"感知"到自己和 4.6 版本的区别**。模型对自身版本迭代的变化没有直接的自省能力,这和人类能回忆"我去年和今年的变化"是完全不同的机制。

    让我搜索一下官方发布的对比信息,这样能给你更客观的答案。基于搜索到的官方发布信息,我给你一个相对客观的对比。先说清楚:以下数据来自 Anthropic 官方和第三方测评,不是我自己的"体感"——那种体感基本不可信。

    ## 核心变化

    **编程能力**是最显著的升级。SWE-bench Verified 从 80.8% 提升到 87.6%,SWE-bench Pro(更难的多语言版本)从 53.4% 跳到 64.3%。CursorBench 从 58% 提升到 70%。对你的场景(********************************工作流)应该有直接帮助。

    **视觉分辨率**是第二大变化。图像输入的长边上限从约 1568 像素提升到 2576 像素(约 3.75 百万像素),是之前的 3 倍多。截图、密集图表、设计稿现在能按原始清晰度处理。对你做 ******** 的 UI 走查或者游戏美术资产审阅会有用。

    **Agent/工具调用**方面,Anthropic 称在复杂多步骤工作流上比 4.6 提升 14%,token 消耗更少,工具调用错误减少到三分之一。跨会话的 scratchpad / notes 文件读写更可靠,之前会丢失的多会话上下文现在能保持——这点对你的多 agent skill 系统(AGENTS.md 那套)是直接利好。

    ## 需要注意的几个坑

    **指令跟随变"字面化"**。官方明确说明模型比前代更严格按字面执行指令,这种严格性减少了歧义带来的意外输出,但也意味着为早期模型写的 prompt 可能需要调整。你的 AGENTS.md 和 skill 文件如果是基于 4.6 调试出来的,迁移时建议回归测试一遍。

    **Token 消耗会涨**。两个变化叠加影响成本:一是新 tokenizer 让同样输入对应的 token 数增加约 1.0-1.35 倍;二是在高 effort 等级下思考更多,特别是 agent 场景的后续回合,输出 token 也会增加。单价没变但实际账单会涨一些。

    **不是全面领先**。Terminal-Bench 2.0 上是退步的,GPT-5.4 为 75.1%,Opus 4.7 为 69.4%;BrowseComp 相比 4.6 也变弱了。

    ## 其他值得知道的

    - 新增 xhigh reasoning 档位,在 high 和 max 之间;知识截止日期从 2025 年 5 月推到 2026 年 1 月
    - 首次内置自动检测并阻止违规网络安全用途的安全机制;上面还有 Claude Mythos Preview 这个更强但只对少数合作方开放的模型
    - 价格不变:$5/$25 per MTok

    ## 对你具体场景的建议

    鉴于你的工作重心是 AI 辅助开发工作流 + ***** 迁移 + I********,**编程和 agent 可靠性的提升对你价值最高**。但你现有的 skill 文件、review template 是在 4.6 上调校的,指令字面化这个变化值得花半天时间回归一下——尤其是那些依赖模型"灵活判断"的 skill 提示词。

    最后再强调一遍开头那句:我无法真正对比"自己"和 4.6 的差异,上面全是基于公开发布信息的转述。真实体感你用几天就知道了。

    ---

    最后记住的就是:部分编程能力明显提升, 然后, 更贵了.....
    ---
    10 条回复    2026-04-17 19:24:41 +08:00
    ryd994
        1
    ryd994  
       13 小时 28 分钟前 via Android   ❤️ 2
    • 请不要把 AI 生成的内容发送到这里
    sddyzm
        2
    sddyzm  
    PRO
       13 小时 16 分钟前
    虽然但是,纯 AI 内容是何意味
    netizen
        3
    netizen  
       13 小时 15 分钟前 via iPhone
    @ryd994 v2 一般只限制不要在回复里引用 AI 内容,对于主题中的内容规定不严格。
    cat9life
        4
    cat9life  
       13 小时 14 分钟前
    感觉比较拉,没啥实质性的进步
    yisier
        5
    yisier  
    PRO
       13 小时 1 分钟前 via Android   ❤️ 1
    • 请不要把 AI 生成的内容发送到这里
    imik
        6
    imik  
       12 小时 47 分钟前
    这一堆 markdown 格式把我看晕了
    lujiaosama
        7
    lujiaosama  
       12 小时 34 分钟前
    你这不如截图。
    ms17010
        8
    ms17010  
       12 小时 19 分钟前
    用 AI 的话长篇大论发帖,确实有点水
    sumarker
        9
    sumarker  
    PRO
       12 小时 2 分钟前
    省流: 花钱提升
    abc0123xyz
        10
    abc0123xyz  
       2 小时 15 分钟前
    新模型刚出来的时候是最强的,因为此时还要刷排行榜之类的
    过一段时间,就要考虑成本了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2803 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 70ms · UTC 13:40 · PVG 21:40 · LAX 06:40 · JFK 09:40
    ♥ Do have faith in what you're doing.