网络浏览器中加载的每个页面都有一个包含在 HTTP 标头中的响应代码,该代码在网页本身上可能可见,也可能不可见。

服务器提供许多不同的响应代码来传达页面的加载状态;最著名的代码之一是 404 响应代码。

通常,400 到 499 之间的任何代码都表示页面未加载。 404 响应代码是唯一具有特定含义的代码 - 该页面实际上已经消失,并且可能不会很快恢复。

什么是软 404 错误?

404 错误不是发送到网络浏览器的官方响应代码。它只是 Google 在其索引中添加到页面的标签。

当 Google 搜索网络时,它会仔细分配资源以确保不会浪费时间搜索不需要索引的缺失页面。

但是,某些服务器配置错误,缺失的页面在本应显示 404 响应代码时加载了 200 代码。即使网页明确表示找不到该页面,如果不可见的 HTTP 标头仍然显示 200 代码,则该页面很可能已经被索引,这对 Google 来说是一种资源浪费。

为了解决这个问题,Google 注意到了 404 页面的特征,并试图判断一个 404 页面是否真的是一个 404 页面。换句话说,Google 知道如果它看起来像 404,闻起来像 404,并且行为像 404,那么它可能是一个真正的 404 页面。

可能会被误认为是软 404

在某些情况下,页面实际上并没有丢失,但某些特征会触发 Google 将其归类为丢失页面。

其中一些特征包括页面上的内容很少或没有内容,以及网站上有太多相似的页面。

这些功能也类似于 Pandas 的铲球。熊猫更新将稀疏和重复的内容视为负面排名因素。

因此解决这些问题将有助于避免软 404 和 pandas 问题。

404 错误的主要原因有两个:

  • 将用户定向到不存在的页面的链接错误。
  • 指向曾经存在但突然消失的页面的链接。

坏链接

如果404错误的原因是坏链接,只需要修复链接即可。

此任务的困难部分是找到网站上所有损坏的链接。

对于拥有数千或数百万页面的大型复杂网站而言,这可能更具挑战性。这种情况下,爬虫就派上用场了。您可以尝试 Xenu、DeepCrawl、Screaming Frog 或 Botify 等软件。

不再存在的页面

当页面不再存在时,您有两个选择:

  • 如果页面被意外删除,恢复它它。
  • 301 将它重定向到最近的相关页面(如果它是故意删除的)。

首先,您必须找到网站上的任何链接错误。类似于查找大型网站链接中的所有错误,可以使用爬虫工具。但是,爬虫可能找不到孤立的页面,这些页面不是从任何地方或导航链接中的任何页面链接的页面。

如果以前的孤立页面曾经是网站的一部分,则它们可能存在,然后在网站重新设计后,指向该旧页面的链接消失,但来自其他网站的外部链接可能仍然链接到它们。要仔细检查您的网站上是否存在此类页面,您可以使用多种工具。

Google Search Console

当 Google 的爬虫遍历它能找到的所有页面时,Search Console 将报告 404 页面。这可能包括来自其他网站的链接,这些链接指向曾经存在于您网站上的页面。

Google Analytics

默认情况下,您不会在 Google Analytics 中找到缺失页面报告。但是,您可以通过多种方式跟踪它们。

对于其中之一,您可以创建自定义报告并分割出标题为“错误 404 – 找不到页面”的页面。

在 Google Analytics 中查找孤立页面的另一种方法是创建自定义内容分组并将所有 404 页面分配给一个内容组。

site:运算符搜索命令

在Google中搜索“site:example.com”,会列出example.com所有被Google收录的页面。然后,您可以分别检查页面是否正在加载或页面是否显示 404。

为了大规模地做到这一点,我喜欢使用 WebCEO,它有能力运行网站:运营商不仅在谷歌上,而且在必应、雅虎、Yandex、Naver、百度和 Seznam 上。

在多个搜索引擎上运行它有助于提供更大的网站页面列表,因为所有搜索引擎只会为您提供一个子集。此列表可以导出并在工具上运行以进行批量 404 检查。我只是通过将所有 URL 作为链接添加到 HTML 文件中并将其加载到 Xenu 上以严格检查 404 错误来做到这一点。

其他反向链接研究工具

Majestic、Ahrefs、Moz Open Site Explorer、Sistrix、LinkResearchTools 和 CognitiveSEO 等反向链接研究工具也可以提供帮助。

这些工具中的大多数都会导出链接到您的域的反向链接列表。从那里,您可以检查您链接到的所有页面,并查找 404 错误。

如何修复软 404 错误

软 404 不会被搜索工具检测到,因为它实际上不是 404 错误。但是您可以使用爬虫工具来检测其他内容。以下是一些需要注意的事项:

  • 精简内容:一些抓取工具不仅会报告内容精简的页面,还会显示总字数。在这里,您可以根据内容的字数对 URL 进行排序。先从字数最少的页面开始,再评估页面内容是否稀疏。

  • 重复内容:一些抓取工具非常复杂,无法识别模板内容占页面内容的百分比。如果主要内容与许多其他页面几乎相同,您应该调查这些页面并确定您网站上存在重复内容的原因。

除了抓取工具之外,您还可以使用 Google Search Console 并在“抓取错误”下进行检查,以查找在软 404 下列出的页面。

通过抓取整个网站以查找导致软 404 的问题,您可以在 Google 检测到问题之前发现并纠正问题。

检测到这些软 404 问题后,您将需要更正它们。

大多数时候,解决方案似乎是常识。这可能包括一些简单的事情,比如用稀疏的内容扩展一个页面,或者用新的和独特的内容替换重复的内容。

在这个过程中,有几点需要考虑:

  • 合并页面:有时内容不足是因为主题不对页面太具体,让你无话可说。如果主题相关,将几个薄页合并为一个可能更合适。这样不仅解决了内容稀疏的问题,也解决了内容重复的问题。例如,销售不同颜色和尺码鞋子的电子商务网站可能会为每种尺码和颜色组合提供不同的 URL。这使得大量页面的内容变得单薄且相对雷同。一种更有效的方法是将所有内容都放在一页上并列出可用选项。

  • 查找导致重复内容的技术问题:即使使用像 Xenu 这样最简单的网络爬虫工具(它不查找内容,只查找 URL、响应代码和标头标签),您仍然会重复内容可以通过查看 URL 找到问题。这包括 www 或非 www URL、http 和 https、带或不带 index.html、带或不带跟踪参数等内容。可以在本演示文稿的幻灯片 6 中找到这些常见重复内容问题的摘要。

谷歌以同样的方式对待 404 错误和软 404 错误

软 404 不是真正的 404 错误,但如果无法修复,谷歌将索引这些页面快速更改.定期抓取您的网站以查看是否出现 404 或软 404 错误是个好主意。搜索工具应该是您的 SEO 工具库的主要部分。

图片来源

特色图片:Paulo Bobita