[阿里爬虫] 如何应对反爬?

2022 年 2 月 23 日
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

14937 次点击
所在节点    程序员
158 条回复
murmur
2022 年 2 月 23 日
这里有京东的人么,你们的法务部该行动了
9c04C5dO01Sw5DNL
2022 年 2 月 23 日
楼主可真刑啊
cweijan
2022 年 2 月 23 日
对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie
registerrr
2022 年 2 月 23 日
很可铐,我看刑
einq7
2022 年 2 月 23 日
我铐,家人们,太刑了,日子越来越有判头了
westoy
2022 年 2 月 23 日
V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬
deplivesb
2022 年 2 月 23 日
楼主离国家饭越来越近了
SoulClinic
2022 年 2 月 23 日
你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/
@cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样)
YUyu101
2022 年 2 月 23 日
对不知道有没有用无头浏览器爬的
statement
2022 年 2 月 23 日
看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧
QK8wAUi0yXBY1pT7
2022 年 2 月 23 日
我就正常用 Chrome 打开淘宝都时不时出现那个验证。
掏包网太瓷了。
shakaraka
2022 年 2 月 23 日
@SoulClinic #8 你知道什么是口袋罪么?
googlefans
2022 年 2 月 23 日
@einq7 hahaha
SoulClinic
2022 年 2 月 23 日
咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网
大部分需要的阿里的数据好像在这个海豚里都有 🤖
TtTtTtT
2022 年 2 月 23 日
@SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。
ChicC
2022 年 2 月 23 日
反爬做到牺牲用户体验了
4BVL25L90W260T9U
2022 年 2 月 23 日
一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。
SoulClinic
2022 年 2 月 23 日
@wunonglin 不知道,听起来 Google 好像是罪大恶极了?
用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力
这就是货真价实,名正言顺的“为人民服务”啊!!
Jooooooooo
2022 年 2 月 23 日
@SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜.
winnerczwx
2022 年 2 月 23 日
@SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX