V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
LetFoxRun
V2EX  ›  问与答

对于我这种网络爬虫,应该使用哪种模型来加快效率呢?

  •  
  •   LetFoxRun · Jun 3, 2014 · 3776 views
    This topic created in 4349 days ago, the information mentioned may be changed or developed.
    举个例子,写一个网络爬虫有以下步骤:
    1.抓取网页(打开网页)
    2.解析网页内容
    3.下载网页里面的内容(比较费时)

    我们可以将上面三个步骤简化为2个,即 1.打开网页 2.解析网页并下载内容

    如果更效率的完成上面的操作呢?


    有好的回复,必发送感谢!
    12 replies    2014-06-03 13:55:06 +08:00
    pathletboy
        1
    pathletboy  
       Jun 3, 2014
    打开网页解析并下载
    binux
        2
    binux  
       Jun 3, 2014   ❤️ 1
    取决于你网速,除非你连怎么占满带宽都不知道。
    shoumu
        3
    shoumu  
       Jun 3, 2014
    下载的内容是什么内容
    faceair
        4
    faceair  
       Jun 3, 2014   ❤️ 1
    多线程或者用回调
    LetFoxRun
        5
    LetFoxRun  
    OP
       Jun 3, 2014 via Android
    @binux
    其实我是想问下,基本常用的都有哪些模型,哪些方法。

    比如,多进程,多线程,异步,父子进程。

    假如需要下载的东西比较费时(需要1分钟能下载成功),但是比较小,10kb,一般情况下,这种应该使用什么模型或方法?

    求多说两句,谢谢。
    oIIo
        6
    oIIo  
       Jun 3, 2014
    为什么不搜一搜呢, 网上搜spider或者crawler,各种文章,各种源码都有,够你参考了。
    diaoleona
        7
    diaoleona  
       Jun 3, 2014
    scrapy or scrapyd
    alexapollo
        8
    alexapollo  
       Jun 3, 2014
    异步编程妥妥的
    LetFoxRun
        9
    LetFoxRun  
    OP
       Jun 3, 2014 via Android
    @oIIo
    我是以爬虫为例,实际情况可能是其他类似的情况。

    主要想知道有哪些更好的方法或模型。
    imn1
        10
    imn1  
       Jun 3, 2014
    一切取决于量~
    爬一个网页和爬一个网站做法完全不同
    binux
        11
    binux  
       Jun 3, 2014
    @LetFoxRun 只能说都可以,不如你自己都了解下
    codingpp
        12
    codingpp  
       Jun 3, 2014   ❤️ 1
    异步回调了,其他不考虑
    一次发起上万个请求
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1097 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 23:46 · PVG 07:46 · LAX 16:46 · JFK 19:46
    ♥ Do have faith in what you're doing.