应用场景是这样:有一个爬虫系统,各种网站上爬了很多网页。但客户删除了一些网站上的帖子,现在需要重新爬一次,把客户删帖的帖子找出来。这种删帖的情况,好像没有标准。各个网站,论坛会提供各种的 404 方案,甚至是找人。请教各位大侠,有什么办法能怎么准确的找出删帖
1
binux 2016 年 5 月 3 日
1. status code ,即使是找人,返回码一般也是 404 ,不然对 SEO 不利
2. 比内容 |
2
pimin 2016 年 5 月 3 日 via Android
按之前爬的网址重新去爬,只发送 HEAD 请求就可以了。
|
3
ysdj 2016 年 5 月 3 日
出现重复次数最多的网页为 404
|
4
Cu635 2016 年 5 月 3 日
我还以为你要找出被删除的帖子然后保留呢……
|
8
Hxai11 2016 年 5 月 9 日
404
headers content |