用中转站的千万要小心,已经有人在 tg 大量购买用户数据用于训练

3 月 11 日
 v2exgo

最近站点做起来了,有人已经开始找我买用户数据了,这个很容易闹成法律纠纷,我这边果断还是拒绝了

之前的帖子里面讲了,模型蒸馏产业链、以及用中转站的注意事项 https://cn.v2ex.com/t/1196011

大家还是使用中转的时候 还是要多多留意,关键 key 跟私钥 一定要放置到 agent 不能读取的目录里面,防止被坏人利用

13046 次点击
所在节点    程序员
79 条回复
dockerhub
3 月 11 日
擦,我怎么没人找我。我的服务器两天的日志都存不下 😆
v2exgo
3 月 11 日
@dockerhub 尼玛的,卖数据被抓到要直接进去的,倒卖 api 最多非法经营,
Meteora626
3 月 11 日
@lujiaosama 会随机抽,但是大厂训练会脱敏的,大厂的数据处理还是很完善的,
catazshadow
3 月 11 日
岂止训练,起手就是 grep 'pwd|pubkey|cred' 🤣
isnullstring
3 月 11 日
用谁都一样,中转卖、官方的自己用
rfv2
3 月 11 日
官方为什么不加类似 https 的内容加密,在推理前解密,很好的卖点。虽然基本上都不允许大家中转
unusualcat
3 月 11 日
1USDT 50 条会话?这玩意这么值钱啊!
v2exgo
3 月 11 日
@unusualcat 要那种单次对话的
aarontian
3 月 11 日
能用中转的都不会是啥好的训练数据吧。。。真正有价值的训练数据都直接通过正规渠道给 claude 了
goodboy95
3 月 11 日
我连用官方的都默认数据全交出去了
ideard
3 月 11 日
还好我是自建,免费的东西代价太大了
JoshTheLegend
3 月 12 日
别说中转了,用官方的不都是默认全交的吗...
unixcs
3 月 12 日
比起我的数据,我更想省点 token 的钱
unusualcat
3 月 12 日
没事别用中转。用户在多轮对话中(比如发代码报错日志、写工作总结、甚至倾诉心理问题)极容易泄露公司机密、个人隐私或真实身份。一旦这些数据被原封不动地喂给新的大模型,新模型在未来回答别人问题时,极有可能把你的隐私直接背诵出来
v2exgo
3 月 12 日
@unusualcat #54 这个我倒不担心,如果模型能力差到这种地步,连数据清洗都不做,这个 LLM 公司离倒闭也差不多了,我担心的是 利用私钥、机密信息犯罪,卖数据如果涉及到这些就直接进去了
LowBi
3 月 12 日
官方交,用 cursor 、trae 这些也交,中转也交,焦虑啥啊这是,除非你搭建本地的模型,而且是超越了这些大厂的模型,不然你就啥线上模型都不要用了,从你使用的那一刻,你的对话肯定会到对方服务器上的。
MoozLee
3 月 12 日
我的破代码被拿去蒸馏了,我有什么损失吗?
dabingbing
3 月 12 日
在乎这个?
viking602
3 月 12 日
@freak118 #4 中转站本身就不是什么正经营生 爱用就用的那种基本上
beijiaoff
3 月 12 日
@rfv2 我觉得从技术上完全可以。就是中转本身就是灰色的……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1197381

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX