有什么不良内容检测的方案吗?

2016 年 1 月 25 日
 KIDJourney

最近在做一个百度贴吧的自动管理机。
现在用的是关键词判别,但是这样误杀率太高了。。。
有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?

顺便丢个地址,求 star 什么的。。。
TiebaManager

4220 次点击
所在节点    Python
33 条回复
KIDJourney
2016 年 1 月 25 日
这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。
aheadlead
2016 年 1 月 25 日
KIDJourney
2016 年 1 月 25 日
@aheadlead 多谢。
SoHMarionette
2016 年 1 月 25 日
实际来说都会有一定的误判吧
例如发广告的加空格,连句触发
毕竟中华文化博大精深
zhicheng
2016 年 1 月 25 日
朴素贝叶斯
ethego
2016 年 1 月 25 日
@SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了
SoHMarionette
2016 年 1 月 25 日
@ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了
ethego
2016 年 1 月 25 日
@SoHMarionette 一行正则就能剔除所有符号
KIDJourney
2016 年 1 月 25 日
@zhicheng 吧务后台现在有问题,不然我也用训练集了。
timepast
2016 年 1 月 25 日
同求一份脏字库
lrz0lrz
2016 年 1 月 25 日
@ethego 同噩性噩交噩友,缓錒解錒寂錒寞 wWw 点 V2EX 点 cOm
ethego
2016 年 1 月 25 日
@lrz0lrz 你这个只能人工审核,没别的办法
ethego
2016 年 1 月 25 日
@lrz0lrz 可以做到把这种异常的语句剔出来人工审
nlzy
2016 年 1 月 25 日
迅哥好

@lrz0lrz 这个不应该是 wWw 点 BilIbiLi 点 c0M 么
aprikyblue
2016 年 1 月 25 日
只有我想到鉴黄师吗?:doge:
KIDJourney
2016 年 1 月 25 日
@nlzy 泥壕
gzlock
2016 年 1 月 26 日
@lrz0lrz
正则可破,就是开销大
同.{0,3}性.{0,3}交.{0,3}友
但如果用同音字就无解了:铜星焦油 无解

@nlzy 网址有点麻烦,不过还是有规律
例如你举例的
.{1,5}[.。点點].{2,10}[.。点點].{2,5}

ps :以上正则用于已去除空格的文本
ryd994
2016 年 1 月 26 日
贝叶斯大法好
但首先你得有足够的样本库……
nlzy
2016 年 1 月 26 日
@gzlock 误杀率好高,这个正则连 2016.01.26 或 ...... 都能匹配到
KIDJourney
2016 年 1 月 26 日
@ryd994
吧务后台挂啦。。。。不然我就用了。。。。。
而且还要处理图片,这个比较麻烦。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/253287

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX