谷歌官方宣布 GoogleBot 将不再遵守与索引相关的 Robots.txt 指令。依赖 robots.txt noindex 指令的发布商必须在 2019 年 9 月 1 日之前将其删除并开始使用替代方案。

Robots.txt Noindex Unofficial

之所以不支持noindex robots.txt指令是因为它不是官方指令。

Google 过去支持此 robots.txt 指令,但现在不再支持了。请适当注意并相应地管理自己。

Google 主要用来遵守Noindex 指令

StoneTemple 发表文章指出Google 主要遵守robots.txt noindex 指令。

他们当时的结论是:

“最终,Robots.txt 中的 NoIndex 指令非常有效。它在我们测试的 12 个案例中的 11 个中起作用。它可能适用于您的网站,并且由于它的实施方式,它为您提供了防止网页被抓取和从索引中删除的途径。

这在概念上非常有用。但是,我们的测试还没有显示 100% 成功,因此它并不总是有效。”

情况已不再如此。不再支持 noindex robots.txt 指令。

这是 Google 的官方推文:

“今天我们告诉 robots.txt 关于未记录和不受支持的规则

如果您依赖这些规则,请在我们的博客文章中了解您的选择。”

以下是公告的相关部分:

“为了维护健康生态系统并在为未来可能的开源版本做准备,我们将在 2019 年 9 月 1 日淘汰所有处理不受支持和未发布的规则(例如 noindex)的代码。”

如何控制爬行?

p>

Google 官方博文列出了五种控制索引的方法:

  1. 机器人元标记中的 Noindex
  2. 404 和 410 HTTP 状态码
  3. 密码保护
  4. 在 robots.txt 中禁用
  5. Search Console 删除 URL 工具

此处阅读官方 Google 声明:
https ://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

阅读官方谷歌推文
https:/ /twitter.com/googlewmc/status/1145950977067016192