听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017 年 10 月 30 日
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

13114 次点击
所在节点    程序员
73 条回复
takanasi
2017 年 10 月 30 日
又不是只有一个人爬,况且首页你还没爬呢
Keyblade
2017 年 10 月 30 日
花式自挂
green15
2017 年 10 月 30 日
不理解就好好读书,别乱爬,脏!
zjyl1994
2017 年 10 月 30 日
我就不明白了,我就双十一买一件衣服怎么就把淘宝买崩了。(全国又不是你一个人在爬,好多新手都折腾煎蛋。。。)
NLL
2017 年 10 月 30 日
能否分享下爬虫代码?
siyemiaokube
2017 年 10 月 30 日
大概是五楼这种比较多
bigtwo
2017 年 10 月 30 日
@siyemiaokube 哈哈
hugee
2017 年 10 月 30 日
煎蛋技术能力有限吧,2333
pynix
2017 年 10 月 30 日
你们把人家爬挂了
zlfzy
2017 年 10 月 30 日
爬这些老图不如爬汤
stebest
2017 年 10 月 31 日
有多少人梦想过全国人民给他捐一块钱
changwei
2017 年 10 月 31 日
热图访问人数多,cdn 有缓存应该会稍微好一点吧,老图的话没有缓存都是要回源的,可能更容易爬跨人家网站。
bxb100
2017 年 10 月 31 日
额,什么时候请求数和网络流量关联在一起了
Perry
2017 年 10 月 31 日
楼主你要是分享了代码,煎蛋说不定就真的要挂
opengps
2017 年 10 月 31 日
都不能好好的看图嘛?
taresky
2017 年 10 月 31 日
ID 贴切
kaifeii
2017 年 10 月 31 日
你们天天这么搞,干脆煎蛋做个开放 api 卖钱得了,或者做个延迟同步的共享读库
cyn
2017 年 10 月 31 日
煎蛋是什么
Ryosan
2017 年 10 月 31 日
id 如本人
chnyang
2017 年 10 月 31 日
@cnyang。。。你好混 ID 的同志

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX