大家都是怎么处理爬虫代理问题的?

2014 年 5 月 24 日
 ccbikai
写好了爬虫,准备爬一些数据,但是IP只有一个,肯定会被封。

大家平时都是怎么处理代理问题的?

目前准备抓免费代理,30分钟检测一次有效性

然后随机选代理


大家有没有什么好办法?
22856 次点击
所在节点    程序员
19 条回复
sohoer
2014 年 5 月 24 日
http://121.199.38.28/
目前使用这个,也不是很稳定,准备用ADSL拔号换IP
也想知道是否有更好的方式
hydrazt
2014 年 5 月 24 日
直接使用tor吧,每1min换一次ip
ccbikai
2014 年 5 月 24 日
@sohoer 我是在自己VPS,没有办法ADSL。
@hydrazt 我了解一下Tor
Livid
2014 年 5 月 24 日
为什么互联网上会有这么多开放的代理服务器呢?
mengli
2014 年 5 月 24 日
淘宝。很便宜。
vbs
2014 年 5 月 24 日
@sohoer 有多么不稳定?不行的话我来做个给大伙用
maemual
2014 年 5 月 24 日
binux
2014 年 5 月 24 日
之前直接用 squid,它会屏蔽失效的代理,使用速度更快的代理,自动轮训,自动重试转发,还能设置规则。爬虫只要设置同一个出口就自动使用代理了。

建议使用这样的转发方式,更容易控制,可重用性高,也不需要检测死活,在进行代理请求的时候同时就进行了。
mengskysama
2014 年 5 月 24 日
我记得有个分支版本的GAE是自动换账号的,是不是可以利用
hadoop
2014 年 5 月 24 日
@binux squid里咋设置?
binux
2014 年 5 月 24 日
@hadoop """cache_peer %s parent %s 0 no-query weighted-round-robin weight=%s connect-fail-limit=2 allow-miss max-conn=5""" % (host, port, weight)
Lucups
2014 年 5 月 24 日
万能的淘宝
ThomasHuang
2014 年 11 月 19 日
@binux 不好意思,我没怎么用过Squid,不怎么看懂您的意思。Squid怎么才能做到动态添加代理池地址,并且自动调整权重?

您的意思是动态生成配置文件,然后重启吗?

最近我自己用gevent和pycurl自己实现了一个简单的代理,主要是代理池里,除了http代理,还有https,socks4,socks5,请问你所说的方式支持https和socks协议吗?我查看Squid的文档,上面来看,似乎cache_peer只能设置http代理是吗?
binux
2014 年 11 月 19 日
@ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
ibreaker
2015 年 6 月 5 日
@mengli 淘宝怎么买?
dgivan
2016 年 9 月 18 日
。。。。。。。。。。。。用高质量的代理 IP 吧。
阿布云代理,曲以代理。等等
http://www.abuyun.com
ibreaker
2016 年 9 月 29 日
@dgivan 我还以为阿里云 。。。醉了
qsnow6
2017 年 2 月 7 日
@binux 有没有配置文件参照,我写了一份,发现不能正常工作

https://study.congcong.us/t/338729#reply0
rocketman13
2018 年 11 月 2 日
@binux 你好,我的 squid 正向代理池 总是使用不了,不知道什么原因,有空帮忙看看配置文件吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/114055

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX