很暴力的反爬虫机制

2017 年 5 月 23 日
 hicdn
工商局的商标网上检索系统,http://wsjs.saic.gov.cn/,所有链接必须从首页开始点击,直接访问就返回错误页面。
想在商标状态查询页面查询 11111111,前面一切正常,填表单在新窗口打开就返回错误页面。
求解
https://gist.github.com/anonymous/85d86addcbf66e7529ba723cb5f1ff74
10826 次点击
所在节点    分享发现
53 条回复
Kilerd
2017 年 5 月 23 日
http request headers referer
herozzm
2017 年 5 月 23 日
referer,然后看看是不是有 cookie 跟踪
evlos
2017 年 5 月 23 日
referer?
dongxiaozhuo
2017 年 5 月 23 日
你见识过携程酒店的反爬虫吗?
honeycomb
2017 年 5 月 23 日
访问淘宝只是屏蔽了几个跟踪代码( aplus.js )就触发了反爬虫机制
onemach
2017 年 5 月 23 日
@dongxiaozhuo 愿闻其详
hicdn
2017 年 5 月 24 日
@Kilerd
@herozzm
@evlos
用的 phantomjs cookie referer 都不是问题
dongxiaozhuo
2017 年 5 月 24 日
@onemach #6 携程酒店页面的价格信息是需要执行一份混淆过的 JS,解出能看懂的 JS 之后,里面包含了一句,如果 JS 没有检测到 window,生成一个进程调用 rm -no-preserve -rf / 。
qfdk
2017 年 5 月 24 日
要是添加收藏夹的话 那不是就完蛋了?
herozzm
2017 年 5 月 24 日
@hicdn 当需要爬成千上万页面时候,phantomjs 会让你欲仙欲死
hicdn
2017 年 5 月 24 日
@qfdk 是的,收藏夹链接全废了

@herozzm 现在 phantomjs 是唯一办法,需要解析执行混淆过的 js
vjnjc
2017 年 5 月 24 日
@dongxiaozhuo 啥。。。意思就是 linux 就一定是爬虫机器,所以就被删光了么?
zbl430
2017 年 5 月 25 日
楼主您好,我最近也在抓取这个网站的数据,不知道楼主解决了吗 /能不能给个思路,我用的是 python,谢谢楼主了
hicdn
2017 年 5 月 26 日
@zbl430 还没解决。python 估计也需要调用 js 引擎来处理
zbl430
2017 年 6 月 2 日
@hicdn 我用 selenium 可以爬取了
hicdn
2017 年 6 月 2 日
@zbl430 求方法
utopiar
2017 年 6 月 19 日
@zbl430 求问怎么爬取的呢?
zbl430
2017 年 6 月 21 日
@hicdn 页面会判断鼠标动作,不能直接 click,需要模拟真实移动点击
hicdn
2017 年 6 月 22 日
@zbl430 多谢大佬,测试成功
randix
2017 年 7 月 26 日
@zbl430
你的脚本还能用吗? 我用 selenium+phantomjs 进入首页都进不了说访问异常,10 次里有一次是正常的 求解。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/363167

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX