气人的 Google,蜘蛛乱抓页面

2020 年 4 月 4 日
 pinews
因为是个人网站,很多地方比较马虎,因为用这 chrome,google 就把我的测试页面抓取了,这些测试页面只在 chrome 上打开过,从来没在网上公开过。
8373 次点击
所在节点    Google
22 条回复
anUglyDog
2020 年 4 月 4 日
还算合理吧,毕竟是一家的.
Tianao
2020 年 4 月 4 日
请正确配置 robots.txt 。
mrchi
2020 年 4 月 4 日
测试页面公网能访问吗?你写 robots.txt 了没?
Tianao
2020 年 4 月 4 日
另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。
mnssbe
2020 年 4 月 4 日
chrome 里有个设置会把 url 发送给 google,你可以反选
wolfan
2020 年 4 月 4 日
roobts 对国产作用不大,但对国外的多少比国内的强。
dot2017
2020 年 4 月 4 日
你这个测试页面上有外链出去到别的被索引过的页面吗,google bot 抓取展现是双向的
deplives
2020 年 4 月 4 日
是否正确配置 robots ? 如果有,再来吐槽。如果没有,请找自己的原因
dobelee
2020 年 4 月 4 日
能公网访问就别抱怨。。
pinews
2020 年 4 月 4 日
@mnssbe 隐私和安全性里的东西我都没有开启。
@anUglyDog 开发人员有时会测试一些敏感信息,这也能被抓取?

@dot2017 这。。。,好吧,有的。
pinews
2020 年 4 月 4 日
@dot2017 但是 google 怎么可能知道,除非还是通过 chrome 记录的,我没开启啊
iasuna
2020 年 4 月 4 日
@pinews 看来是没设置 robots.txt 那既然在公网上了 也没啥不能抓取的啊
daozhihun
2020 年 4 月 4 日
你没设 robots,google spider 咋知道哪些是敏感的
alan0liang
2020 年 4 月 4 日
Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了😂
aureole999
2020 年 4 月 4 日
@pinews 比如你链接的页面是属于 Google 的或者有 Google ads,analytics 之类的,那 Google 肯定能拿到 referer 啊,referer 就是你自己的页面了。
binux
2020 年 4 月 4 日
把 Google 换成 360 浏览器再来看看评论
miaomiao888
2020 年 4 月 5 日
@binux 你这种叫啥来着? 算了还是给你拉红一下
mxalbert1996
2020 年 4 月 5 日
你有敏感信息就不要放公网上,放公网上就设个访问限制,你放公网上又不设访问限制又不写 robots 被抓了还怪人家?
binux
2020 年 4 月 5 日
ksdd521lr
2020 年 4 月 5 日
google 的骚操作哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/659308

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX