某乎的 robots 皮一下很开心?

2018 年 5 月 13 日
 c29551
前面的部分都挺正常,最后皮一下很开心?
5335 次点击
所在节点    分享发现
17 条回复
opengps
2018 年 5 月 13 日
不欢迎预期之外的小搜索引擎?
Telegram
2018 年 5 月 13 日
@opengps #1 关键是人家小搜索引擎的爬虫根本不鸟他的 robots 限制
lukefan
2018 年 5 月 13 日
淘宝、百度、facebook 等纷纷表示确实很开心
cairnechen
2018 年 5 月 13 日
不知道是不是我的理解偏差,robots 是不是就和君子协定差不多啊
maemual
2018 年 5 月 13 日
@cairnechen #4 是
pkookp8
2018 年 5 月 13 日
是我理解错了么,百度家的也是这样
cairnechen
2018 年 5 月 13 日
@maemual 那为什么淘宝的 robots 对百度会有约束力呢?
whileFalse
2018 年 5 月 13 日
皮一下你不开心?
maemual
2018 年 5 月 13 日
@cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。
queshengyao
2018 年 5 月 13 日
@maemual 请问一下淘宝是如何禁止百度爬虫的?我一直以为是百度遵守了 robots 协议
oonnnoo
2018 年 5 月 13 日
GitHub,除了 EtaoSpider,国内其他 bot 都被包含在*中,更皮
maemual
2018 年 5 月 13 日
@queshengyao #10 封一把百度爬虫的 UA 就好了啊。
queshengyao
2018 年 5 月 14 日
@maemual 我用 postman 试了一下,用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀
maemual
2018 年 5 月 14 日
@queshengyao UA 只是举个例子,还有很多手段啊,比如封百度爬虫的 IP 段之类的
queshengyao
2018 年 5 月 14 日
@maemual 嗯这我知道,要封爬虫有很多方式,但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的,所以想知道是百度没遵守 robots 协议,然后淘宝另外用了手段封禁吗?
maemual
2018 年 5 月 14 日
@queshengyao #15 robots 只是个声明,不是个强制手段,以百度的尿性,能遵循这种君子协定?
MinonHeart
2018 年 5 月 15 日
github 也这么做。爬虫多了,知乎的土豆服务器可能扛不住

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/454402

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX