听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017 年 10 月 30 日
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

13115 次点击
所在节点    程序员
73 条回复
Nostalgiaaaa
2017 年 10 月 31 日
爬虫教程尽量就别发出来的。。人一多就相当于 DDoS 了
xiejc
2017 年 10 月 31 日
我能不能把上边的代码删了,感觉不太好😢
silencefent
2017 年 10 月 31 日
我实在他妈不明白,爬虫这种含量的事儿还有人炫耀?写个爬虫屌的不行了?听人家说了这样不好还爬?这些年教育都到狗肚子里去了?
justtery
2017 年 10 月 31 日
上满的去搜 知乎爬虫。。豆瓣电影。。豆瓣读书的爬虫。。一堆一堆的。。。
iFlicker
2017 年 10 月 31 日
第一,煎蛋是个小站,真的是个小站,不是百度腾讯阿里巴巴谷歌亚马逊非死不可。
第二,你一个人流量小了,一千个人呢?一万个人呢?十万个人呢?,你知道控制频率,新手们可不知道。
第三,你们就饶了煎蛋吧,已经是少有的摸鱼净土了。。。。。
glacier2002
2017 年 10 月 31 日
欢迎来扒 btstar.info 数据 😢
wangxiaohao
2017 年 10 月 31 日
哈哈哈哈 心疼煎蛋 1s
Karblue
2017 年 11 月 1 日
你家里这么多电器,我搬台电视机也没拿多少东西嘛…再说了,皇军吃你几个西瓜怎么了…… 来自 jandan。
自己作恶还觉得理所当然。
ajan
2017 年 11 月 1 日
求楼主的 jandan.db
z1154505909
2017 年 11 月 1 日
练手找招聘,租房的网站练啊,别找煎蛋,一个小站不容易,
还有就是新手写爬虫大多都不知道控制频率,
只知道爬爬爬.不知道手下留情

心疼煎蛋...
forcecharlie
2017 年 11 月 1 日
爬的人多了如果服务器资源有限就成了 DDOS 攻击了。前几年 12306 抢票插件拖垮 Github 历历在目。
rswl
2017 年 11 月 1 日
练功房
newworld
2017 年 11 月 1 日
明明还有很多人去爬豆瓣 哈哈哈 没人说么!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX