准备练手写一个爬虫，问问老司机

近两周下班翻看了一下基本语法，队列，字典，条件，网络，文件等等语法有了个大概了解了，，，

想写个爬虫试试：爬知乎票数最高的十个回答

以我现在关于爬虫知道的有限知识，准备这样做（有错则望轻喷）

找李开复爷爷的大V号开始，

检索其回答过的问题的票数，记录
然后遍历关注他的用户
继续检索其中一个开复爷爷的粉丝回答的问题的票数，记录
，，，
，，，

上面这个过程应该涉及到广度深度搜索，，用递归的方式估计分分钟就内存溢出了，所以需要用一个队列维护起来。如果数据太多，也许得保存到数据库。

解析HTML准备直接用HTMLParser或者Beautiful Soup。

那么问题来了，，，我这个爬虫爬到什么时候告诉自己结束，难不成让它爬几个月爬遍整个知乎？，

这个过程不涉及登陆，所以基本主要问题是算法的设计，以及HTML的解析。

------------------------
希望老司机告诉我这个思路有没有错
以及，如果你来写，你会怎么实现这个爬虫，

爬虫

票数

检索

18 replies • 2015-12-04 15:44:24 +08:00

messense

Apr 16, 2015

Try scrapy http://scrapy.org

messense

Apr 16, 2015

Daniel65536

Apr 16, 2015 via iPad

思路偏了。

直接读取这个网页就行了：
http://www.zhihu.com/topic/19776749/top-answers

1.知乎-话题-精华会按照投票数量排序某话题/子话题下的最高票答案
2.知乎-根话题是所有话题的母话题

所以直接检查根话题精华就能得到票数最高的答案了。

ioven

Apr 16, 2015

把知乎用户名入库，直到抓取抓取不到新的用户名为止。

binux

Apr 16, 2015

Try pyspider http://demo.pyspider.org/

Daniel65536

Apr 16, 2015 via iPad

经验：写爬虫前一定要多花时间分析目标网站，分析用多一分钟顶你爬多一天。

你这个具体问题上爬虫爬一个月还不如我直接读取网页花一秒。

经验2：多花时间分析流量有效性比。

为什么要去读取html？如果有RESTful api读json的效率是不是高更多？
充满层级/样式/脚本的html中有价值的数据的比例占总数据量的多少？有没有20%？
json有效数据比例可以高达70%，同样网速爬取速度就能快3-5倍，还不用考虑html的解析问题。

#一点爬数据的人生经验