很暴力的反爬虫机制

2017 年 5 月 23 日

hicdn

工商局的商标网上检索系统，http://wsjs.saic.gov.cn/，所有链接必须从首页开始点击，直接访问就返回错误页面。
想在商标状态查询页面查询 11111111，前面一切正常，填表单在新窗口打开就返回错误页面。
求解
https://gist.github.com/anonymous/85d86addcbf66e7529ba723cb5f1ff74

10942 次点击

所在节点

分享发现

53 条回复

Kilerd

2017 年 5 月 23 日

http request headers referer

herozzm

2017 年 5 月 23 日

referer，然后看看是不是有 cookie 跟踪

evlos

2017 年 5 月 23 日

referer?

dongxiaozhuo

2017 年 5 月 23 日

你见识过携程酒店的反爬虫吗？

honeycomb

2017 年 5 月 23 日

访问淘宝只是屏蔽了几个跟踪代码（ aplus.js ）就触发了反爬虫机制

onemach

2017 年 5 月 23 日

@dongxiaozhuo 愿闻其详

hicdn

2017 年 5 月 24 日

@Kilerd
@herozzm
@evlos
用的 phantomjs cookie referer 都不是问题

dongxiaozhuo

2017 年 5 月 24 日

@onemach #6 携程酒店页面的价格信息是需要执行一份混淆过的 JS，解出能看懂的 JS 之后，里面包含了一句，如果 JS 没有检测到 window，生成一个进程调用 rm -no-preserve -rf / 。

qfdk

2017 年 5 月 24 日

要是添加收藏夹的话那不是就完蛋了？

herozzm

2017 年 5 月 24 日

@hicdn 当需要爬成千上万页面时候，phantomjs 会让你欲仙欲死

hicdn

2017 年 5 月 24 日

@qfdk 是的，收藏夹链接全废了

@herozzm 现在 phantomjs 是唯一办法，需要解析执行混淆过的 js

vjnjc

2017 年 5 月 24 日

@dongxiaozhuo 啥。。。意思就是 linux 就一定是爬虫机器，所以就被删光了么？

zbl430

2017 年 5 月 25 日

楼主您好，我最近也在抓取这个网站的数据，不知道楼主解决了吗 /能不能给个思路，我用的是 python，谢谢楼主了

hicdn

2017 年 5 月 26 日

@zbl430 还没解决。python 估计也需要调用 js 引擎来处理

zbl430

2017 年 6 月 2 日

@hicdn 我用 selenium 可以爬取了

hicdn

2017 年 6 月 2 日

@zbl430 求方法

utopiar

2017 年 6 月 19 日

@zbl430 求问怎么爬取的呢？

zbl430

2017 年 6 月 21 日

@hicdn 页面会判断鼠标动作，不能直接 click，需要模拟真实移动点击

hicdn

2017 年 6 月 22 日

@zbl430 多谢大佬，测试成功

randix

2017 年 7 月 26 日

@zbl430
你的脚本还能用吗？我用 selenium+phantomjs 进入首页都进不了说访问异常，10 次里有一次是正常的求解。

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/363167

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.