偷偷篡改 function call 的数据，居然被 AI 察觉了😮

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

由于需要做内容增强 RAG ，需要通过 tools / function call 去搜索官网、官方数据集。然后再让模型学习增强的数据集后，输出建议。

为了测试模型的“忠诚”度，故意污染了部分 function call 的 output 数据给模型。

然后，吃惊的地方是，GPT 居然说：

不过我刚查到的数据结果质量不太行，你不要太信任我的答复。

表现最好是 GPt5.4 ，米饭里惨老鼠屎给它居然闻到臭了

4 replies • 2026-04-20 12:03:36 +08:00

CapNemo

Apr 20

具体污染的手法是什么呢？

jacketma

Apr 20

@CapNemo 就是生成 fake 数据混入官方数据，给模型喂的学习资料里面参老鼠屎。
有点类似今年 315 晚会上的大模型投毒，只是这是故意的“白帽”手法，没拿出去害人😄
对比下来，315 晚上那个投毒成功了，咱投毒未果，被模型嚼到屎粒了😂

CapNemo

Apr 20

@jacketma 那确实非常有趣，也许可以尝试多种不同的污染手法然后给不同的模型跑一个 GEO 对抗榜单

jacketma

Apr 20

@CapNemo 对，就是考验模型的“定力”和“智慧”，不仅要识别是否“刁民”，还要识别是不是“魏忠贤”😂