舆情爬虫项目框架及存储选择

2021 年 1 月 7 日
 liwenbest

手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好

4105 次点击
所在节点    Python
16 条回复
AntoniotheFuture
2021 年 1 月 7 日
舆情爬虫有商业服务了,要不要考虑一下?
liwenbest
2021 年 1 月 7 日
@AntoniotheFuture 加我 QQ986636628 私聊
AntoniotheFuture
2021 年 1 月 7 日
@liwenbest 我没有做,你百度一下有很多啊
Keyes
2021 年 1 月 7 日
预算多少,买个现成的,卖两个人过去看着吧,我司舆情项目都 saas 化了,单一系统根本收不回成本
wzwwzw
2021 年 1 月 7 日
@liwenbest QQ 有答案无法回复。
jr55475f112iz2tu
2021 年 1 月 7 日
这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案
murmur
2021 年 1 月 7 日
是真的要做还是要坑人钱,爬微博知乎就省省吧,贴吧那么多你爬哪里
liwenbest
2021 年 1 月 7 日
@wzwwzw 沙滩车
liwenbest
2021 年 1 月 7 日
@Keyes 公司接了个舆情项目 要开发的 开发周期一年 要自己搞了
liwenbest
2021 年 1 月 7 日
@czfy 要自己开发的
jr55475f112iz2tu
2021 年 1 月 7 日
@liwenbest 自己开发..只能祝你好运
smgui
2021 年 1 月 7 日
可以试试这个,试过用 kafka 和 rabbitmq 作为队列爬了些网络小说:
https://github.com/Insutanto/scrapy-distributed
这些框架的源代码都很简单,完全可以自己造轮子。
liwenbest
2021 年 1 月 7 日
@smgui 非常感谢 我看看
tisswb
2021 年 1 月 12 日
我几年前做过类似项目,用的是 scrapy_redis + elasticsearch 的组合,基本够用
liwenbest
2021 年 1 月 14 日
@tisswb 我目前也是 scrapy_redis 但是存储用 mongodb
tisswb
2021 年 1 月 18 日
@liwenbest 用 es 的好处就是索引 分词 统计功能全面,可以省不少功能开发量

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/742545

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX