求教如何爬取全网的某类信息数据，包括公众号内的信息

2024 年 12 月 6 日

corso

如何实现在没有具体网页地址的情况下爬取到我想要的信息，包含公众号

3025 次点击

所在节点

Python

10 条回复

shadowyue

2024 年 12 月 6 日

那你这个功能相当于特定内容的搜索引擎了

YJi

2024 年 12 月 6 日

我司有接口可以输出

sir283

2024 年 12 月 6 日

一、掏钱买接口。
二、自己掏钱买设备，然后模拟点击，捕获内容入库保存。
三、逆向、抓包、hook 客户端。

tf2

2024 年 12 月 6 日

加钱买就行。

dispuri

2024 年 12 月 6 日

@YJi 哪个公司呀

YJi

2024 年 12 月 6 日

@dispuri 有数据需求么？

lingxmo

2024 年 12 月 6 日

对接搜索引擎

EatIce

2024 年 12 月 6 日

@YJi 怎么联系

YJi

2024 年 12 月 6 日

@EatIce 我 wx：WUpYXzA5Mjg= （ base64 解一下

XinPingQiHe

2024 年 12 月 6 日

这种情况都是先调用百度搜索（辅以其它类似搜索引擎）+你的关键词，然后分析搜索结果，（注意有多页面用参数翻页）。
解析每条搜索结果，用程序爬取对应网页内容。必要时分析网页上面的外链，搜索更多相关数据。
有那些基础数据之后，在后期，你也可以建立自己的缓存，自己到对应的网站去抓取，抓取中，收录更多的相关网址。。。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1095419

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.