在 V2EX 读了几篇前辈的文章,受益匪浅,最近在工作中做了一些爬虫的工作,总结了一下使用新的,供参考:Scrapy 爬虫工程设计

1
gulangyu Jul 21, 2017 via Android
前排支持!
|
2
misaka19000 Jul 21, 2017 via Android
后排支持!
|
3
zenxds Jul 21, 2017
中排支持!
|
4
aaronzjw Jul 21, 2017
三排 支持
|
5
tE1lmEY Jul 21, 2017
最近有需求做这个,想爬 discuz !监控评论!
|
6
CryMeatel Jul 22, 2017 via Android
scrpay 限制太多。。。一个 twisted 陈旧的 API 有的时候要改下麻烦死了
|
7
xarrow Jul 22, 2017
用来爬代理 ip 再保存数据库太鸡肋了,因为代理 ip 生命周期都很短,等你保存到数据库再拿来用估计都死的差不多了
|
8
samding123 OP @xarrow 你可以做一个代理池,每天有任务去爬取和校验有效性。只不过我这个工程是每天 7 点开始,提前两小时开始爬有效 ip,7 点到了就开始用只是今天爬到的。今天以前的就不再用了,省去了维护代理池的步骤
|
9
RangerWolf Jul 23, 2017
图画的不错, 请问是用什么画出来的?
|
10
lzjun Jul 23, 2017 图画的不错, 请问是用什么画出来的?
|
11
mxi1 Jul 23, 2017
看着像 visio
|
12
sunwei0325 Jul 24, 2017
感谢楼主分享!
|
13
samding123 OP @RangerWolf Balsamiq Mockups
|