[阿里爬虫] 如何应对反爬？

2022 年 2 月 23 日

SoulClinic

最近在做房产拍卖的爬虫，京东的很好爬，很容易就爬到需要的几千条记录（包括图片，附件，自动生成海报），自动生成数据库需要的数据 (node.js + puppeteer)，在小程序显示：

但要爬淘宝的就难多了，时不时要求登陆或者验证（如果请求频繁），也会让你休息，看网上也有很多普通用户抱怨这个关键是滑滚过去还会失败：

https://sf.taobao.com/item_list.htm

正在摸索，阿里主要是根据 cookie 来判别请求是否过于频繁，网上也说了每个请求最好相隔几秒

更可恶的是，在阿里自己的阿里云服务器根本就请求不到（无论是什么 cookie ），我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈？🎃

14937 次点击

所在节点

程序员

158 条回复

murmur

2022 年 2 月 23 日

这里有京东的人么，你们的法务部该行动了

9c04C5dO01Sw5DNL

2022 年 2 月 23 日

楼主可真刑啊

cweijan

2022 年 2 月 23 日

对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie

registerrr

2022 年 2 月 23 日

很可铐，我看刑

einq7

2022 年 2 月 23 日

我铐，家人们，太刑了，日子越来越有判头了

westoy

2022 年 2 月 23 日

V 站京东的程序员呢？楼主这样挑衅你们能忍么? 快点去肝反爬

deplivesb

2022 年 2 月 23 日

楼主离国家饭越来越近了

SoulClinic

2022 年 2 月 23 日

你们太纯真善良了，这些数据“好像”是公开的啊，已经有类似的 app 了，例如这个: https://www.yfbudong.com/
@cweijan 替换 cookie 我试了确实可行，但是只能人工，请教自动替换怎么整（ puppeteer 有点点被阿里打压了一样）

YUyu101

2022 年 2 月 23 日

对不知道有没有用无头浏览器爬的

statement

2022 年 2 月 23 日

看是否追究了公开的数据爬应该可以但可以给你安一个破坏计算机系统罪而且你爬公开信息也只能自用不能对外提供服务吧

QK8wAUi0yXBY1pT7

2022 年 2 月 23 日

我就正常用 Chrome 打开淘宝都时不时出现那个验证。
掏包网太瓷了。

shakaraka

2022 年 2 月 23 日

@SoulClinic #8 你知道什么是口袋罪么？

googlefans

2022 年 2 月 23 日

@einq7 hahaha

SoulClinic

2022 年 2 月 23 日

咱暂时的底牌就是：如果阿里的爬不到，就爬这个海豚网
大部分需要的阿里的数据好像在这个海豚里都有 🤖

TtTtTtT

2022 年 2 月 23 日

@SoulClinic 马路也是公开的，也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。

ChicC

2022 年 2 月 23 日

反爬做到牺牲用户体验了

4BVL25L90W260T9U

2022 年 2 月 23 日

一谈爬虫就开始玩儿梗，要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了，恨不得马上替阿里用口袋罪给抓住。就这个来说，去搜下各种指纹吧，TCP 指纹、TLS 指纹、浏览器指纹，会有些思路的。

SoulClinic

2022 年 2 月 23 日

@wunonglin 不知道，听起来 Google 好像是罪大恶极了？
用户跟我说的主要目的就是节省用户（主要是律师）的时间 /效率，现在他们要一时搜京东，一时搜阿里，白花了很多时间精力
这就是货真价实，名正言顺的“为人民服务”啊！！

Jooooooooo

2022 年 2 月 23 日

@SoulClinic 公开数据当然不能随便爬. 搜爬虫坐牢有惊喜.

winnerczwx

2022 年 2 月 23 日

@SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓

第 1 页／共 8 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/835907

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.