一直挺好奇的, Google 是如何抓取隐藏内容的?

2021 年 2 月 18 日
 coolcatha
有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。

难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
4699 次点击
所在节点    Google
21 条回复
itskingname
2021 年 2 月 18 日
有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
AngryPanda
2021 年 2 月 18 日
不负责任猜想:有权限的用户使用了 chrome 浏览器
littlelooloo
2021 年 2 月 18 日
你看到的是前段,google 的蜘蛛抓得是后端
momo1999
2021 年 2 月 18 日
有可能是还没设置权限就被抓了。
docx
2021 年 2 月 18 日
已知的两种可能:
1. 在源码里,假隐藏,打开 F12 找找
2. 针对 Google Bot 开放检索权限
docx
2021 年 2 月 18 日
补充一条
3. 还没设置权限时已被抓取
superrichman
2021 年 2 月 18 日
可能做了 seo 优化,也可能就是漏洞
westoy
2021 年 2 月 18 日
网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
ruixue
2021 年 2 月 18 日
大概率是针对 Google 做了 SEO,允许 Googlebot 爬
很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅
甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取
coolcatha
2021 年 2 月 18 日
@itskingname
@dzyou2007

我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。


@ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。
docx
2021 年 2 月 18 日
User-Agent 携带了 Google Bot 信息,判断很容易
@coolcatha
coolcatha
2021 年 2 月 18 日
@dzyou2007 这个太容易伪造了,除了 Google bot 的 IP 其他的都能伪造呀
silymore
2021 年 2 月 18 日
@AngryPanda 记得 360 浏览器这么干过
coolcatha
2021 年 2 月 18 日
@AngryPanda
@silymore

Google 不至于吧,早就大新闻了
morethansean
2021 年 2 月 18 日
coolcatha
2021 年 2 月 18 日
@morethansean 非常感谢。如果是这样,我也没办法去验证了
ruixue
2021 年 2 月 18 日
@coolcatha 通过 ip 段来判断是不是来自 Googlebot 的访问请求

很多 GeoDNS 都用了这些 ip 库,可以针对各个搜索引擎的 Bot 返回单独的解析结果
billlee
2021 年 2 月 18 日
ESP
2021 年 2 月 18 日
这里还真涉及到 discuz 的两个漏洞
coolcatha
2021 年 2 月 18 日
@ESP 能详细说说吗?或者给个关键词哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/753855

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX