优化我们在抓取您的网站时,我们的主要目标是确保搜索引擎将时间花在我们最重要的页面上,定期抓取它们并找到任何新内容。

每次 Googlebot 访问您的网站时,它都会在有限的时间内抓取并发现您网站上尽可能多的网页和链接。当达到该限制时它会停止。

重新访问页面所需的时间取决于 Google 如何确定要抓取的 URL 的优先级的各种因素,包括:

  • 页面排名。
  • 包含 XML 站点地图。
  • 在站点架构中的位置。
  • 页面更改的频率。
  • 还有更多。

底线:您的网站每次被抓取时只会在有限的时间内引起 Googlebot 的注意,这种情况很少发生。确保明智地度过你的时间。

在分析您的网站针对搜索引擎抓取工具的优化程度时,可能很难知道从哪里开始,尤其是当您在一个有许多要分析的 URL 的大型网站上工作时,或者在为大型网站工作时公司,有很多相互竞争的优先事项和出色的 SEO 修复需要优先考虑。

这就是为什么我整理了这份用于评估爬网卫生状况的顶级清单,以便为您的分析提供一个起点。

1. 网站上有多少页面被索引,有多少可索引页面?

为什么这很重要

这将向您显示您网站上有多少页面可供 Google 编制索引,以及其中有多少页面 Google 实际能够找到以及有多少页面被识别到足以被索引。

2.总共抓取了多少页面?

为什么这很重要

将 Googlebot 的抓取活动与您网站上的页面数量进行比较可以让您深入了解 Google 无法访问或已确定为计划不足的页面数量定期爬行。

3.有多少页面不可索引?

为什么这很重要

花时间抓取不可索引的页面并不是对 Google 抓取预算的最佳利用。检查这些页面中有多少被抓取,以及是否有任何页面可用于索引。

4.有多少网址被禁止抓取?

为什么这很重要

这会告诉您有多少网页被搜索引擎从您的站点中屏蔽掉了。保护这些页面对于索引或发现更多要抓取的页面很重要。

5.有多少低价值页面被索引?

为什么这很重要

查看您网站上已被 Google 编入索引的页面可以告诉您网站的哪些区域可供抓取工具访问。

例如,这些可能是您未包含在站点地图中的页面,因为它们的质量较低,但无论如何都被发现并编入了索引。

6.抓取了多少个 4xx 错误页面?

为什么这很重要

重要的是要确保抓取预算没有花在错误页面上,而不是花在您想要索引的页面上。

Googlebot 会定期尝试抓取 404 错误页面以查看它是否再次出现,因此请确保正确使用 410 状态代码以表明该页面已消失并且不需要重新抓取.

7.抓取了多少内部重定向?

为什么这很重要

Googlebot 在您网站上发出的每个请求都会使用抓取预算,这包括重定向链中每个步骤的任何其他请求。

通过确保只有状态代码为 200 的页面链接到您的网站,并减少对非最终目标 URL 的页面的请求数量,帮助 Google 更有效地抓取并节省抓取预算。

8.有多少规范页面和规范化页面?

为什么这很重要

您网站上规范化页面的数量可以揭示您网站上的重复数量。虽然规范标签包含了重复页面集之间的链接公平性,但它们对帮助抓取预算没有任何帮助。

Google 将从一组规范化页面中选择一个页面编入索引,但为了能够确定哪个是主要页面,它首先必须抓取所有页面。

9.页面被抓取的页面或方面有多少?

为什么这很重要

Google 只需要抓取包含未发现内容或未链接 URL 的网页。

分页和头像通常是重复 URL 和抓取工具陷阱的来源,因此请确保您不会不必要地抓取这些不包含任何独特内容或链接的页面。

由于 Google 不再支持 rel=next 和 rel=prev,请确保优化您的内部链接以减少分页对页面发现的依赖。

10.抓取源中的页面发现不匹配?

为什么这很重要

如果您发现用户通过日志文件数据中的分析访问的页面未被搜索引擎抓取,则这些页面可能对您很重要搜索引擎不像用户那样容易被发现。

通过将不同的数据源与爬网数据集成,您可以发现搜索引擎无法轻易找到的页面中的空白。

Google 发现 URL 的两个主要来源是外部链接和 XML 站点地图,因此如果您无法让 Google 抓取您的网页,请确保它们包含在您的站点地图中(如果它们没有已经链接到任何其他网站)谷歌已经知道并定期抓取。

总结

通过对您管理的网站执行这 10 项检查,您应该能够更好地了解您网站的可抓取性和整体技术健康状况。

一旦您确定了抓取垃圾邮件的区域,您就可以使用 robots.txt 中的禁用方法指示 Google 抓取更少的页面。

然后您可以开始影响它,通过优化您网站的架构和内部链接以抓取更重要的页面,使其更加突出和被发现。

图片来源

所有截图均为作者截屏,2019年9月