V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
jacketma
V2EX  ›  OpenAI

偷偷篡改 function call 的数据,居然被 AI 察觉了😮

  •  
  •   jacketma · Apr 19 · 1915 views

    由于需要做内容增强 RAG ,需要通过 tools / function call 去搜索官网、官方数据集。然后再让模型学习增强的数据集后,输出建议。

    为了测试模型的“忠诚”度,故意污染了部分 function call 的 output 数据给模型。

    然后,吃惊的地方是,GPT 居然说:

    不过我刚查到的数据结果质量不太行,你不要太信任我的答复。

    表现最好是 GPt5.4 ,米饭里惨老鼠屎给它居然闻到臭了

    4 replies    2026-04-20 12:03:36 +08:00
    CapNemo
        1
    CapNemo  
       Apr 20
    具体污染的手法是什么呢?
    jacketma
        2
    jacketma  
    OP
       Apr 20   ❤️ 1
    @CapNemo 就是生成 fake 数据混入官方数据,给模型喂的学习资料里面参老鼠屎。
    有点类似今年 315 晚会上的大模型投毒,只是这是故意的“白帽”手法,没拿出去害人😄
    对比下来,315 晚上那个投毒成功了,咱投毒未果,被模型嚼到屎粒了😂
    CapNemo
        3
    CapNemo  
       Apr 20
    @jacketma 那确实非常有趣,也许可以尝试多种不同的污染手法然后给不同的模型跑一个 GEO 对抗榜单
    jacketma
        4
    jacketma  
    OP
       Apr 20
    @CapNemo 对,就是考验模型的“定力”和“智慧”,不仅要识别是否“刁民”,还要识别是不是“魏忠贤”😂
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1866 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 16:16 · PVG 00:16 · LAX 09:16 · JFK 12:16
    ♥ Do have faith in what you're doing.