V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
spice630
V2EX  ›  问与答

图片爬虫 laosj(老司机),支持分布式,可以自定义下载并发量

  •  
  •   spice630 · 2016 年 12 月 7 日 · 3506 次点击
    这是一个创建于 3386 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做鉴黄方面的东西,自己写了个图片爬虫爬点图。

    功能不算强大,但是非常轻量 好用,临时需要爬些数据是极好的。

    有现成的示例,编译完可用。

    https://github.com/songtianyi/laosj

    第 1 条附言  ·  2017 年 2 月 13 日
    新加内容:
    aiss-darwin 根据接口下载爱丝图片(依赖 redis 作为 url 队列)
    jav 获取番号列表及根据番号获取种子文件 (无依赖)
    haixiuzu.go 豆瓣害羞组图片抓取和下载(依赖 redis 作为 url 队列)
    第 2 条附言  ·  2017 年 9 月 21 日
    5 条回复    2017-02-13 14:43:25 +08:00
    ofblyt
        1
    ofblyt  
       2016 年 12 月 8 日
    能说一下怎么支持分布式的么?
    spice630
        2
    spice630  
    OP
       2016 年 12 月 8 日
    @ofblyt
    redis, 采集 url 放入 redis ,下载器从 redis 取 url 。
    spice630
        3
    spice630  
    OP
       2016 年 12 月 8 日
    @ofblyt
    分布式爬取的话,目前并没有很好地支持(因为自己目前还用不上),需要自己写任务分发。
    spice630
        4
    spice630  
    OP
       2016 年 12 月 8 日
    @ofblyt 多机部署 /运行是没问题的。
    spice630
        5
    spice630  
    OP
       2017 年 2 月 13 日
    新加内容:
    aiss-darwin 根据接口下载爱丝图片(依赖 redis 作为 url 队列)
    jav 获取番号列表及根据番号获取种子文件 (无依赖)
    haixiuzu.go 豆瓣害羞组图片抓取和下载(依赖 redis 作为 url 队列)
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2527 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 16:00 · PVG 00:00 · LAX 09:00 · JFK 12:00
    ♥ Do have faith in what you're doing.