有人喜欢写爬虫用浏览器扩展来实现的吗?

2025 年 2 月 20 日
 s2555

要爬网页的时候,每次用 python 写都是容易跳出验证,有些要登录的更麻烦,后来我发现写浏览器扩展,直接操作当前的页面好像不用考虑那么多情况,爬到的数据直接发到接口处理。所以问下大家,我这个是 Python 用得不好,技能点歪了吗?

5117 次点击
所在节点    Python
43 条回复
wbyyffhh
2025 年 2 月 20 日
扩展怎么写的
aladd
2025 年 2 月 20 日
同策略,因为我不会写代码,过验证对我来说太难了,外加我维护的小玩具难度太低了,有结果就行。
所以我一直这么玩的,并很满意!
callmejoejoe
2025 年 2 月 20 日
看需求,简单少量的数据爬取用扩展也可以,就是速度慢,还得开着电脑浏览器不休眠
fidcz123
2025 年 2 月 20 日
想问下有些页面 js 调用 click 不生效,这个怎么处理?
尝试过事件以及网上大部分操作都无效

对于多页之类的总不可能一个个手动点
815979670
2025 年 2 月 20 日
写扩展也麻烦 可以写油猴插件 JS 就能操作
AFOX
2025 年 2 月 20 日
@fidcz123 加一个 delay 试试
lisxour
2025 年 2 月 20 日
无头啊,浏览器扩展不觉得很受限嘛?完全吃力不讨好
TimePPT
2025 年 2 月 20 日
playwright+无头浏览器,解决 80%问题
tool2dx
2025 年 2 月 20 日
@lisxour cf 防火墙访问限制开高的话,无头很难爬,动不动就跳验证。
yahon
2025 年 2 月 20 日
简单的我一般用这个插件 https://tenrabbits.github.io/user-js-css-docs/
irever
2025 年 2 月 20 日
简单使用的话可以试试 WebScraper
picone
2025 年 2 月 20 日
量少的话确实很方便,直接兼容所有反爬策略,验证码除外。 我喜欢用 automa 这个插件,不用自己手写。
PromiseResolve
2025 年 2 月 20 日
确实,经常用 puppeteer 做
sofukwird
2025 年 2 月 20 日
https://study.congcong.us/t/1028977#reply50
把页面资源通过 http proxy 代理暴露出来
hanssx
2025 年 2 月 20 日
不是,你扩展怎么就能过 cf 了吗?还是说你手动过了 cf ,扩展再工作,那你这顶多半自动化。
kkk1234567
2025 年 2 月 20 日
selenium ,直接用浏览器爬
Vegetable
2025 年 2 月 20 日
没歪,这样挺好的。
包括使用 MITM 代理+手动翻页,都是可行的方案。前提是看你什么需求。

对自动化要求高、规模大的当然不行,但很多爬虫其实不是这样的需求。
lisxour
2025 年 2 月 20 日
@tool2dx 那也可以直接 playwright 自动化控制浏览器啊,本质就是跟自己打开浏览器一样的,啥方案不比浏览器扩展强
mumbler
2025 年 2 月 20 日
无头浏览器才是正确姿势
freewind
2025 年 2 月 20 日
C# + webview2 自己做浏览器爬

扩展限制了很多权限

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1112944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX