重复内容是指在线上出现在多个地方的内容。“地点”是指具有唯一 URL 的页面。它可以是完全相同的内容,也可以是几乎完全相同的内容,可以在同一个网站上,也可以在另一个网站上。

从技术上讲,您可能不会因重复内容而受到 Google 的处罚,但它可能会损害您的搜索引擎排名。这是因为搜索引擎很难确定内容的哪个位置最相关。结果,没有一个 URL 最终排名很高,也没有一个页面获得最高的搜索可见性。

Google 应该能够检测重复内容,将所有 URL 分组到一个集群中,然后选择最佳结果。但这并不总是能正常工作,并且可能选择了错误的 URL。最终,网站所有者可能会注意到由于重复内容而导致排名降低或流量减少。幸运的是,有一些方法可以防止此类事情发生在您的网站上。

为什么重复内容是个问题

重复内容以多种方式影响搜索引擎和网站所有者:

  • 搜索引擎不知道索引中包含或不包含哪些 URL。
  • 搜索引擎不知道链接指标(权威、信任等)是否应该全部指向一个页面或多个页面。
  • 目前尚不清楚在 SERP(搜索引擎结果页面)中对哪个 URL 进行排名,有时不受欢迎的 URL 可能会超过合法的 URL。
  • 链接资产(一个页面传递给另一个页面的权限和价值)被稀释了,因为其他想要包含指向内容的反向链接的站点必须在多个 URL 之间进行选择。然后链接资产分布在重复项中,而不是只关注一页。

即使所有 URL 都直接指向您的网站,如果一个链接属性使其看起来对用户不友好,并且 Google 对 URL 的该版本而不是原始 URL 进行排名,人们可能不想点击它。例如,yoursite.com/besttrails 看起来比 yoursite.com/besttrails/?utm_content=buffer&utm_medium=social 更具吸引力。但如果谷歌排名第二,因为它认为这是重复内容的主要版本,人们不会点击它,因为它看起来很吓人而且不值得信赖。

此外,当您有重复的内容时,您网站的抓取“预算”也会用完。Google 会抓取网站以查找新内容,并且 Google 还会定期重新抓取网站以查看是否有任何新内容。如果您的网站上有重复的内容,这意味着彻底抓取所有页面需要更多时间。这可能会导致谷歌索引和重新索引页面并在搜索结果中显示它们的时间表变慢。

Google 的重复内容政策

根据谷歌

站点上的重复内容不是对该站点采取行动的理由,除非重复内容的意图似乎是具有欺骗性并操纵搜索引擎结果。

然而,虽然谷歌不会对大多数重复内容的网站所有者进行处罚,但该公司继续说:

在极少数情况下,Google 认为显示重复内容可能是为了操纵我们的排名和欺骗我们的用户,我们也会对相关网站的索引和排名进行适当的调整。因此,该网站的排名可能会受到影响,或者该网站可能会完全从 Google 索引中删除,在这种情况下,它将不再出现在搜索结果中。

谷歌可能会考虑欺骗用户和/或操纵搜索引擎排名的意图是什么?故意制作具有重复内容的域、子域和页面。此外,发布抓取的内容– 特别是如果您不添加任何其他有价值的内容。

但请记住这一点:即使 Google 不会正式惩罚您或认为您的重复内容是恶意的,它仍然会损害您的 SEO 工作。如果 Google 因重复内容问题而停止对您的网站进行排名,您可以在问题得到解决后提交重新审核请求。

重复内容是如何发生的

通常,网站所有者不会故意创建重复的内容。这就是为什么谷歌不会对它进行过于严厉的惩罚。这也是复制内容和重复内容之间的区别。

复制内容是指您从另一个网站获取确切的措辞并自行发布。重复内容是指您不小心或在不知情的情况下在线其他地方拥有您自己内容的另一个版本。

在这里,我们将讨论重复内容在线结束的常见方式。之后,我们将讨论如何解决重复内容的问题。

HTTP、HTTPS、WWW 和非 WWW 页面

如果您的站点有两个不同的版本——例如 www.yoursite.com 和 yoursite.com——相同的内容将出现在站点的两个版本上,这意味着存在重复的内容。http:// 和 https:// 站点也是如此。

分页

当一篇文章或博客文章的评论部分跨越多个页面时,可能会发生分页。或者,也许有一个图片库,每个图片都在一个单独的页面上。这种重复也可能发生在无限滚动的页面上,当用户不断向下滚动时,新内容就会填充。

网址变体

URL 参数(如跟踪代码)可能会无意中创建重复的内容。例如,您网站上的一个页面可能是 yoursite.com/sneakers,但如果您有一个跟踪代码来查看人们从何处点击,它可能看起来像 yoursite.com/newsletter?utm_source=newsletter。即使 Google 和其他搜索引擎不考虑这种重复的内容,您也可能必须处理在您的分析平台中创建多个条目的单独参数。

会话 ID 可以具有相同的效果。会话是访问者在网站上所做操作的简短历史记录,例如当他们将某些东西添加到购物车时。当该人点击进入其他页面时会话仍然存在,因此他们的购物车保持不变。会话 ID 是该会话的唯一修饰符,有时存储在 URL 中 (yoursite.com?sessionId=jow8082345hnfn8456)。这可以创建具有相同页面内容的多个不同 URL。

如果您拥有适合打印的版本或适合移动设备的内容版本,也会发生同样的情况。搜索引擎会认为有多个相同内容的页面。因为……有。

这在电子商务网站上也很常见,尤其是在用户过滤搜索结果时。URL 几乎保持不变,但最后有一个附录,如大小或颜色。这称为分面导航或过滤导航。页面上的内容几乎相同,但 URL 是唯一的。

即使是尾部斜杠也可以使 URL 唯一。例如,yoursite.com/page 和 yoursite.com/page/。查看这是否导致重复内容问题的最快方法是访问页面的两个版本。如果没有加载,您不必担心。否则,重定向是一种选择(稍后会详细介绍)。

重复内容发生的更多方式

  • 电子商务产品描述:不同的电子商务网站在使用制造商对产品的描述时存在重复内容是很常见的。
  • 图片附件页面:当每个图片附件都有单独的页面时,这可能会创建重复的内容。
  • 搜索结果页面:这些页面将参数添加到搜索 URL,例如 yoursite.com?q=search-term。
  • 暂存环境:这是用于测试的站点的重复版本。
  • 标签和类别页面:当您使用标签或类别时,WordPress 将自动创建专用的标签和类别页面。当一个页面有多个类别或标签时,这有时会导致内容重复。

如何修复重复内容

对于上面列出的一些较小的问题,您可能会在您的 SEO 插件中找到一个有用的设置。例如,在 Yoast 插件中,您可以禁用图片的附件页面 URL:

WordPress 还有一个用于关闭评论分页的内置选项:

否则,以下做法是解决重复内容问题的主要方法。

1. 查找重复内容

首先,您必须找到重复内容的实例。Ahrefs Site AuditGoogle Search Console等工具可以抓取您的网站,并让您知道是否有任何重复的内容警告。

如果您想在您的网站上查找特定关键字的重复内容,您可以在 Google 中输入以下内容:

站点:yoursite.com 标题:关键字

然后,您将看到您网站上包含该关键字的所有页面。一个好的经验法则是搜索特定的关键字,以便更容易梳理结果。

如果您认为某篇文章在网上其他地方被复制,您可以使用诸如Grammarly或 Copyscape 之类的抄袭检查器来查找其他完全匹配句子的实例。或者,您可以将一两个完整的句子粘贴到 Google 中,看看它是否显示在您网站以外的其他地方。

2.通过规范化调整内容的URL

一旦您知道网上有重复的内容,就该确定要保留的主要页面了。

您为搜索引擎规范化该主页。规范化告诉搜索引擎 URL 是页面的主版本——该页面应该出现在搜索结果中,而不是引擎可能遇到的任何重复页面。以下是规范化内容的两种方法:

301重定向

创建从重复页面到主页的 301 重定向。重复页面将停止相互竞争,主页将变得更受欢迎和相关,这意味着它将开始排名更高。我们有一篇关于如何使用 WordPress 创建重定向来帮助您的文章。

您还可以从重定向的 URL 转移到新目标中获得任何链接汁/页面权限的额外好处。

Rel=”canonical” 属性

此属性让搜索引擎知道页面是 URL 的副本,并且任何链接、指标和排名能力都应应用于指定的主 URL,而不是复制的页面。该属性应包含在每个重复页面的 HTML 头中,并带有指向您想要关注的原始页面的链接。谷歌有深入介绍如何添加属性的文档,我们有关于规范 URL 和 WordPress 的更详细的内容来补充它。

为避免内容抓取,即机器人复制、下载和重新发布您的网站内容时,请将 rel=”canonical” 属性添加到您自己的网页中。该属性将是自引用的——它将指向它当前所在的 URL。即使内容确实被抓取,只要机器人移植完整的 HTML 代码,您的版本仍将被视为原始版本。

3. 使用 Google Search Console 调整您的域 URL

例如,Google Search Console可让您指定网站的首选域,例如 yoursite.com 而不是 www.yoursite.com。您还可以让 Googlebot 知道如何处理不同的网址参数。这可能会清除您的部分或全部重复内容问题。但只有谷歌。不适用于其他搜索引擎。BingYandex等平台都有自己的网站管理员工具。

防止或修复重复内容的更多提示

  1. 例如,添加内部链接时,请使用相同版本的域,无论是否带有 www。还要始终使用带有或不带有斜杠的相同版本的页面。选择哪种结构并不重要,但要与之保持一致。
  2. 如果您正在安排联合内容,使用该内容的网站应添加指向原始内容的反向链接不是 URL 的变体。但原始的、主要的、规范的 URL。
  3. 不要将空页面发布为占位符。每个空页面都会被索引,这会让搜索引擎认为你有很多重复的内容。
  4. 减少您拥有的类似内容的数量。例如,假设您有一个合法网站,并且您服务于您所在地区的不同县。如果您谈论的是相同的法律主题,例如人身伤害法,每个县的特定页面可能包含类似的信息。一种选择是将页面合并成一个关于两个县的更大页面,或者您可以更多地改变内容以保持页面分开。

关于重复内容的最终想法

遇到少量重复内容通常不会引起关注。但是确实需要处理影响数百或数千页的技术问题。另外,清除任何和所有重复的内容问题也没有什么坏处。这只是运行一个整洁且高性能的网站的一部分。毕竟,您要做的最后一件事就是与自己竞争并破坏自己的排名,因为您可以完全控制内容。

找出重复内容后,您可能还想查看我们关于如何处理关键字蚕食以防止重复关键字问题的文章。

您是如何设法处理网站上的重复内容的?让我们在评论中讨论现实世界的策略!