有人喜欢写爬虫用浏览器扩展来实现的吗?

2025 年 2 月 20 日
 s2555

要爬网页的时候,每次用 python 写都是容易跳出验证,有些要登录的更麻烦,后来我发现写浏览器扩展,直接操作当前的页面好像不用考虑那么多情况,爬到的数据直接发到接口处理。所以问下大家,我这个是 Python 用得不好,技能点歪了吗?

5117 次点击
所在节点    Python
43 条回复
s2555
2025 年 2 月 20 日
@cyhlnj 分析好页面,chatgpt 直接写好了,再改改就行了。
s2555
2025 年 2 月 20 日
@freewind 我很早也做过这样的啊,很多网页直接屏蔽了
s2555
2025 年 2 月 20 日
@fidcz123 目前没试过不生效的,这个基本等于鼠标操作了
cutecore
2025 年 2 月 20 日
一样,难搞的会用浏览器,用 Bulk URL Opener 和 Tampermonkey 来做。
s2555
2025 年 2 月 20 日
@TimePPT playwright 打开的浏览器就跟新开的浏览器啊,没有登录状态
s2555
2025 年 2 月 20 日
有些网站我只要模拟点击下一页,然后拦截请求,就可以获取那些 api 的数据,但是有很多不行,半桶水水平。
s2555
2025 年 2 月 20 日
@callmejoejoe 用 python 模拟的话也要开着电脑啊,而且你还不能干别的了,浏览器扩展的话,我只要开着那个网页就行了。
dawn009
2025 年 2 月 20 日
@mumbler
@kkk1234567

无头浏览器能被反爬检测到。真实浏览器最省心,反正个人使用也不需要很高的效率,足够了
Chatterleys
2025 年 2 月 20 日
简单的可以,但是风控都很难过,我平常做扩展类工具比较多,电商类的自动化工具
soar0712
2025 年 2 月 20 日
我用 java 多,我的解决办法
1 、不复杂的话,用 java 操作无头浏览器,能抓住八成的数据;
soar0712
2025 年 2 月 20 日
@soar0712 2 、更复杂的,直接用 java 操作 robot 接管键鼠,模拟人工取数据
cctv6
2025 年 2 月 20 日
哈哈,我之前做了一个,写着玩的没开源。

浏览器装上了插件之后,会同步当前的 tab 到服务端,用 websocket 个服务器同步状态。

服务器会下发命令,执行 js ,获取网页内容等等。

服务端下发任务的时候,可以随机分配任务到连接的客户端上,执行分布式任务。。

做出来了之后特别像后门软件,可以在没有察觉的情况下监控浏览器的上网情况。。。
NerdHND
2025 年 2 月 20 日
abigeater
2025 年 2 月 21 日
用油猴写 教会怎么用油猴就好, 浏览器扩展没发布得启用开发者模式,教别人安装这个太麻烦了不同浏览器的扩展打包也麻烦
s2555
2025 年 2 月 21 日
@cdlnls 牛的
@NerdHND 感谢,看了对我来说太麻烦了。
@abigeater 我了解一下
macaodoll
2025 年 2 月 21 日
我选择直接定制浏览器,
zbowen66
2025 年 2 月 21 日
@s2555 #25 明明可以把所有状态 cookies ,storage 等储存到不同 JSON 文件,启动的时候可以加载不同文件,方便地一批
s2555
2025 年 2 月 21 日
@zbowen66 🙏感谢,deepseek 了一下,完全明白了
guaguaguaxia1
2025 年 2 月 21 日
不管黑猫白猫
iorilu
2025 年 2 月 21 日
插件怎么个玩法, 有没有开源得参考下

有时候也想爬点数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1112944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX