对于我这种网络爬虫，应该使用哪种模型来加快效率呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 4349 days ago, the information mentioned may be changed or developed.

举个例子，写一个网络爬虫有以下步骤：
1.抓取网页（打开网页）
2.解析网页内容
3.下载网页里面的内容（比较费时）

我们可以将上面三个步骤简化为2个，即 1.打开网页 2.解析网页并下载内容

如果更效率的完成上面的操作呢？

有好的回复，必发送感谢！

12 replies • 2014-06-03 13:55:06 +08:00

pathletboy

Jun 3, 2014

打开网页解析并下载

binux

Jun 3, 2014

取决于你网速，除非你连怎么占满带宽都不知道。

shoumu

Jun 3, 2014

下载的内容是什么内容

faceair

Jun 3, 2014

多线程或者用回调

LetFoxRun

Jun 3, 2014 via Android

@binux
其实我是想问下，基本常用的都有哪些模型，哪些方法。

比如，多进程，多线程，异步，父子进程。

假如需要下载的东西比较费时（需要1分钟能下载成功），但是比较小，10kb，一般情况下，这种应该使用什么模型或方法？

求多说两句，谢谢。

oIIo

Jun 3, 2014

为什么不搜一搜呢，网上搜spider或者crawler，各种文章，各种源码都有，够你参考了。

diaoleona

Jun 3, 2014

scrapy or scrapyd

alexapollo

Jun 3, 2014

异步编程妥妥的

LetFoxRun

Jun 3, 2014 via Android

@oIIo
我是以爬虫为例，实际情况可能是其他类似的情况。

主要想知道有哪些更好的方法或模型。

imn1

Jun 3, 2014

一切取决于量～
爬一个网页和爬一个网站做法完全不同

binux

Jun 3, 2014

@LetFoxRun 只能说都可以，不如你自己都了解下

codingpp

Jun 3, 2014

异步回调了，其他不考虑
一次发起上万个请求