V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
pinews
V2EX  ›  Google

气人的 Google,蜘蛛乱抓页面

  •  1
     
  •   pinews · Apr 4, 2020 · 8373 views
    This topic created in 2218 days ago, the information mentioned may be changed or developed.
    因为是个人网站,很多地方比较马虎,因为用这 chrome,google 就把我的测试页面抓取了,这些测试页面只在 chrome 上打开过,从来没在网上公开过。
    22 replies    2020-04-07 12:53:07 +08:00
    anUglyDog
        1
    anUglyDog  
       Apr 4, 2020
    还算合理吧,毕竟是一家的.
    Tianao
        2
    Tianao  
       Apr 4, 2020   ❤️ 2
    请正确配置 robots.txt 。
    mrchi
        3
    mrchi  
       Apr 4, 2020
    测试页面公网能访问吗?你写 robots.txt 了没?
    Tianao
        4
    Tianao  
       Apr 4, 2020
    另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。
    mnssbe
        5
    mnssbe  
       Apr 4, 2020 via iPhone
    chrome 里有个设置会把 url 发送给 google,你可以反选
    wolfan
        6
    wolfan  
       Apr 4, 2020 via Android
    roobts 对国产作用不大,但对国外的多少比国内的强。
    dot2017
        7
    dot2017  
       Apr 4, 2020
    你这个测试页面上有外链出去到别的被索引过的页面吗,google bot 抓取展现是双向的
    deplives
        8
    deplives  
       Apr 4, 2020
    是否正确配置 robots ? 如果有,再来吐槽。如果没有,请找自己的原因
    dobelee
        9
    dobelee  
       Apr 4, 2020 via iPhone
    能公网访问就别抱怨。。
    pinews
        10
    pinews  
    OP
       Apr 4, 2020
    @mnssbe 隐私和安全性里的东西我都没有开启。
    @anUglyDog 开发人员有时会测试一些敏感信息,这也能被抓取?

    @dot2017 这。。。,好吧,有的。
    pinews
        11
    pinews  
    OP
       Apr 4, 2020
    @dot2017 但是 google 怎么可能知道,除非还是通过 chrome 记录的,我没开启啊
    iasuna
        12
    iasuna  
       Apr 4, 2020 via iPhone
    @pinews 看来是没设置 robots.txt 那既然在公网上了 也没啥不能抓取的啊
    daozhihun
        13
    daozhihun  
       Apr 4, 2020 via Android
    你没设 robots,google spider 咋知道哪些是敏感的
    alan0liang
        14
    alan0liang  
       Apr 4, 2020 via Android
    Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了😂
    aureole999
        15
    aureole999  
       Apr 4, 2020
    @pinews 比如你链接的页面是属于 Google 的或者有 Google ads,analytics 之类的,那 Google 肯定能拿到 referer 啊,referer 就是你自己的页面了。
    binux
        16
    binux  
       Apr 4, 2020 via Android   ❤️ 5
    把 Google 换成 360 浏览器再来看看评论
    miaomiao888
        17
    miaomiao888  
       Apr 5, 2020
    @binux 你这种叫啥来着? 算了还是给你拉红一下
    mxalbert1996
        18
    mxalbert1996  
       Apr 5, 2020 via Android   ❤️ 1
    你有敏感信息就不要放公网上,放公网上就设个访问限制,你放公网上又不设访问限制又不写 robots 被抓了还怪人家?
    binux
        19
    binux  
       Apr 5, 2020 via Android
    ksdd521lr
        20
    ksdd521lr  
       Apr 5, 2020 via Android
    google 的骚操作哈哈
    laqow
        21
    laqow  
       Apr 5, 2020 via Android
    我理解这个事实上都不用从 chrome 抓,在注册域名的时候就抓了,甚至可能你拿 8888 做 dns 时候就抓了。
    pinews
        22
    pinews  
    OP
       Apr 7, 2020
    我把我的意思明确一下,本质上不是蜘蛛抓取未公开的页面,
    而是 google chrome 将我的访问记录下来,并公布在网络上了,恰好是我的自己的网站,所以正好发现了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2475 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 206ms · UTC 09:30 · PVG 17:30 · LAX 02:30 · JFK 05:30
    ♥ Do have faith in what you're doing.