V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
golmic

全员接单时代! IP 代理池项目完善中!

  •  
  •   golmic · Nov 18, 2017 · 6619 views
    This topic created in 3089 days ago, the information mentioned may be changed or developed.

    这是一个 ip 代理池项目

    https://github.com/lujqme/proxy_pool

    还有一个 Python 数据交流社群,数百名小伙伴们在这里交流数据抓取数据分析以及数据挖掘的内容,如果你有兴趣,也欢迎你加入!

    http://pyanalysis.org/

    微信群现有用户数百人,考虑增开分群。

    为鼓励群里小伙伴动手写代码,让小伙伴们学习数据抓取的内容,群主会为每个成功贡献代码的小伙伴发红包,现在群昵称为 @指间沙、 @Vincent--LC 等数名小伙伴已经获得了近百元的红包奖励~~

    如果你也对数据感兴趣,或者闲来无聊想写点代码,又有钱赚何乐而不为呢?

    群早已超 100 人不能扫码进入,请加微信拉你入群,方式见

    http://pyanalysis.org/

    29 replies    2017-11-27 21:50:33 +08:00
    jjc27017
        1
    jjc27017  
       Nov 18, 2017
    实测,群员之一,努力在学习,表示群里都是大神,群主也比较好耐心哈哈哈哈哈用¥来鼓励我们学习
    ljhygh
        2
    ljhygh  
       Nov 18, 2017
    本人目前群里一只小菜鸡,努力学习当中
    NLL
        3
    NLL  
       Nov 18, 2017
    可以的,练手挺好,坐等楼主项目完成
    smileghost
        4
    smileghost  
       Nov 18, 2017
    超好玩的呀,群主大神带着我们飞,还有红包拿,美滋滋~(~ ̄▽ ̄)~
    dlsflh
        5
    dlsflh  
       Nov 18, 2017 via Android
    这楼上的回复我都觉得是机器人。点开除了第一个又好像没啥问题…
    jjc27017
        6
    jjc27017  
       Nov 18, 2017
    @dlsflh 我只是注册时间短了一点而已。。。。别这样
    golmic
        7
    golmic  
    OP
       Nov 18, 2017
    @dlsflh #5 这都是群里的真实朋友。
    xuyl
        8
    xuyl  
       Nov 18, 2017
    粗略看了下项目, 用 scrapy 做爬虫,pipelines 里数据持久化到 mongodb,只不过 process_items 方法有点小问题,没有去重。改成这样也许更好:

    ```
    def process_item(self, item, spider):
    self.db['proxys'].update({'ip': item['ip']}, dict(item), True)
    return item
    ```
    golmic
        9
    golmic  
    OP
       Nov 18, 2017
    @xuyl #8 谢谢,去重肯定 要做的,其实这个项目背后还有一个代理打分系统没有开源出来。欢迎一起来交流啊~
    gamecreating
        10
    gamecreating  
       Nov 18, 2017
    网站跪了
    sunchen
        11
    sunchen  
       Nov 18, 2017
    爬的买的代理 IP 都是垃圾,ADSL 才是王道
    cyancat0525
        12
    cyancat0525  
       Nov 18, 2017 via Android
    你确定这个是"池"吗
    golmic
        13
    golmic  
    OP
       Nov 18, 2017
    @gamecreating #10 没有啊,一直正常
    golmic
        14
    golmic  
    OP
       Nov 18, 2017
    @cyancat0525 #12 确定,后面还有一个打分系统
    steveway
        15
    steveway  
       Nov 18, 2017 via Android
    微信群并加不进去
    golmic
        16
    golmic  
    OP
       Nov 19, 2017
    @steveway #15 因为人满了,加我微信我拉你。
    steveway
        17
    steveway  
       Nov 19, 2017 via Android
    @golmic 就是加你微信没反应呀
    golmic
        18
    golmic  
    OP
       Nov 19, 2017 via Android
    @steveway 再加一下,或者我加你,我网站上有各种联系方式
    gamecreating
        19
    gamecreating  
       Nov 20, 2017
    @golmic 北京电信 无法链接
    YMB
        20
    YMB  
       Nov 20, 2017
    = =
    golmic
        21
    golmic  
    OP
       Nov 20, 2017
    @gamecreating #19 其他小伙伴没有反馈。我北京联通正常
    Soar360
        22
    Soar360  
       Nov 21, 2017
    爬虫工程师的自(。・∀・)ノ゙嗨
    https://proxy.coderbusy.com/
    naiba
        23
    naiba  
       Nov 22, 2017 via Android
    @Soar360 666 啊,ip 是哪里来的
    golmic
        24
    golmic  
    OP
       Nov 22, 2017 via Android
    @naiba 互联网采集
    beshe
        25
    beshe  
       Nov 23, 2017
    github 上得星较多的一个相似项目

    https://github.com/jhao104/proxy_pool
    golmic
        26
    golmic  
    OP
       Nov 23, 2017
    @beshe #25 这个项目我读过源码,存在多线程异步锁未释放问题,排查起来异常复杂,并且现在你去看看 issue 很多人提这个问题。所以自己基于 Scrapy 重写了一套,我也写了一套更完善的打分系统,后续也会开源出来。
    doun
        27
    doun  
       Nov 25, 2017 via Android
    不是用 TOR 来做 IP 池比较好吗?
    sangmong
        28
    sangmong  
       Nov 27, 2017
    如何区分雌性雄性?
    sangmong
        29
    sangmong  
       Nov 27, 2017
    回复错了,尴尬。。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2476 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 76ms · UTC 04:41 · PVG 12:41 · LAX 21:41 · JFK 00:41
    ♥ Do have faith in what you're doing.