Python 爬虫实践之:简书用户画像

2017 年 6 月 13 日
 keisuu

最近用 Python 写了一个简书用户的爬虫,单机耗时 30 小时抓取了简书 30 万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这 30 万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性

http://mp.weixin.qq.com/s/N_nomh6aHYIUS1FRFC067Q

8169 次点击
所在节点    Python
15 条回复
gaoyadianta
2017 年 6 月 13 日
玩 python 多久了,看着还挺有意思的嘛
kokdemo
2017 年 6 月 13 日
这个应该算是用户统计,还谈不上画像。

但是能爬了这么多数据也挺有意思的……
xiaoyu9527
2017 年 6 月 13 日
我现在想抓微博的网红和模特和 COSER 然后抓他们发的套图。 你们有没有思路?
xiaoyu9527
2017 年 6 月 13 日
然后做一个瀑布流网站。
xiaoyu9527
2017 年 6 月 13 日
@keisuu 有没有思路
lzjun
2017 年 6 月 13 日
有点意思
keisuu
2017 年 6 月 13 日
@gaoyadianta 努力成长的菜鸟一枚
keisuu
2017 年 6 月 13 日
@xiaoyu9527 第一步获取数据( github 有开源的微博爬虫),第二步用 web 框架( django、flask )搭建一个网站将抓的数据展示出来。
xiaoyu9527
2017 年 6 月 13 日
@keisuu 就是没有思路怎么整理数据(如何知道他是女模特或者 COSER )
haoba
2017 年 6 月 13 日
@xiaoyu9527 只抓指定的几个人的 feed,或者关联的就再抓上他关注的人的 feed。然后拉回本地分析一下图。
zzljzeng
2017 年 6 月 13 日
好 6666
l32606
2017 年 6 月 14 日
画图用的是什么?
xiaoyu9527
2017 年 6 月 14 日
@haoba 我目前的思路也是先抓 1 人再抓剩下的人。这种思路。
longchisihai
2017 年 6 月 14 日
同问怎么画图的
bget
2017 年 6 月 20 日

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/368071

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX