有什么办法吧一个网站上的文章都爬取下来吗?

2021 年 7 月 13 日
 hackingwu

我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

3199 次点击
所在节点    程序员
18 条回复
6J73U552K5UVij4R
2021 年 7 月 13 日
用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
hackingwu
2021 年 7 月 13 日
@2G 我们可以去触发插件的按钮吗
itechify
2021 年 7 月 13 日
爬虫爬得好
ingdawn
2021 年 7 月 13 日
坐牢坐到老
seamonster
2021 年 7 月 13 日
真刑啊,日子越来越有判头了
zelentre
2021 年 7 月 13 日
很刑.
HankLu
2021 年 7 月 13 日
很简单
ztcaoll222
2021 年 7 月 13 日
先这样
HashV2
2021 年 7 月 13 日
再这样
JettWu
2021 年 7 月 13 日
进去进得早
yunyuyuan
2021 年 7 月 13 日
然后再这样
nepiedg
2021 年 7 月 13 日
最后在这样
jingcoco
2021 年 7 月 13 日
有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
kasusa
2021 年 7 月 13 日
python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
就这么个流程吧。
不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
caicaiwoshishui
2021 年 7 月 13 日
楼上队形笑死我
6J73U552K5UVij4R
2021 年 7 月 14 日
@hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
solopython
2021 年 7 月 14 日
试试 Newspaper3k
muzuiget
2021 年 7 月 14 日
写个浏览器扩展就可以了,专事专办。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/789287

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX