网站重复内容的8个原因和对应解决方案

什么是重复内容?

重复内容是在网络上的多个 URL 上的相同内容。因为不止一个 URL显示相同的内容,搜索引擎不知道哪个URL 在搜索结果中列出得更高。因此,他们可能会将这两个 URL 排名较低,并优先考虑其他网页。

为什么要防止网站上的重复内容?

重复内容意味着类似的内容出现在网络上的多个位置 (URL),因此搜索引擎不知道在搜索结果中显示哪个 URL。这会损害网页的排名,而且当人们开始链接到相同内容的不同版本时,问题只会变得更糟。

另外,如果您的内容非常稀薄,并且结合了逐字复制的内容,甚至可能会因试图欺骗用户而面临 Google 的手动操作惩罚。

 

导致出现重复内容的原因有哪些?

1.技术人员对URL的误解导致的重复内容

 

由于开发人员不像浏览器甚至用户那样思考,更不用说搜索引擎蜘蛛了。以http://www.example.com/keyword-x/和http://www.example.com/article-category/keyword-x/为例,如果你问开发者,他们会说它只存在一次。在开发者看来,该文章的唯一标识符是该文章在数据库中的 ID,而不是 URL。但是对于搜索引擎来说,URL 是一段内容的唯一标识符。 所以需要你像开发人员解释清楚这一点,甚至可以为他们提供解决方案。

 

2.会话ID导致的URL重复

 

会话是访问者在您的网站上所做操作的简要历史记录,包含诸如购物车中的物品之类的内容。为了使访问者从一个页面点击到另一个页面时保持该会话,该会话的唯一标识符(称为会话 ID)需要存储在某处。最常见的解决方案是使用 cookie 来实现。但是,搜索引擎通常不存储 cookie。

此时,某些系统会退回到在 URL 中使用会话 ID。这意味着网站上的每个内部链接都会将该会话 ID 添加到其 URL,并且由于该会话 ID 对于该会话是唯一的,因此它会创建一个新 URL,因此会重复内容。

 

3.用于跟踪和排序的 URL 参数

 

重复内容的另一个原因是使用不会更改页面内容的 URL 参数,例如在跟踪链接中。你看,对一个搜索引擎来说,http://www.example.com/keyword-x/和http://www.example.com/keyword-x/?source=rssURL 是不一样的。后者可能使您可以跟踪人们的来源,但也可能使您更难获得良好的排名-这是非常不希望的副作用!

 

当然,这不仅仅适用于跟踪参数。它适用于您可以添加到不会更改重要内容的 URL 的每个参数,无论该参数是用于“更改一组产品的排序”还是“显示另一个侧边栏”:所有这些都会导致重复内容。

 

4.抓取工具和内容联合

其他网站使用抓取工具抓取使用或手动复制您的内容,不论你是否同意。 当它们不链接到您的原始文章时,搜索引擎必须处理同一篇文章的另一个版本。此时您的网站越受欢迎,您将获得越多的抓取工具,从而使这个问题变得越来越大。

 

5.参数顺序

另一个常见的原因是 CMS 不使用干净整洁的 URL,而是使用类似 的 URL /?id=1&cat=2,其中 ID 指的是文章,cat 指的是类别。URL/?cat=2&id=1将在大多数网站系统中呈现相同的结果,但对于搜索引擎来说它们是完全不同的。

 

6.评论分页

在WordPress 以及其他一些系统中,可以选择对您的评论进行分页。这导致内容在文章 URL 中重复,文章 URL + /comment-page-1/、/comment-page-2/ 等。

 

7.适合打印的页面

如果您的内容管理系统创建了适合打印的页面,并且您从文章页面链接到这些页面,那么 Google 通常会找到它们,除非您特别阻止它们。您希望 Google 显示哪个版本?带有您的广告和周边内容的那个,还是只显示您的文章的那个?

 

8.WWW 与非 WWW

当您的网站的两个版本都可以访问时,WWW 与非 WWW 重复内容。另一种不太常见但我也见过的情况是 HTTP 与HTTPS重复内容,两者都提供相同的内容。

 

 

使用 Google 运算符来发现您的网站或内容是否存在重复内容问题

1.example.com intitle:“关键字 X”

此运算符可以用来识别你网站上包含关键字 X 文章的所有 URL

站点:example.com intitle:“关键字 X”

Google 将向您显示 example.com 上包含该关键字的所有页面。您对查询的该部分进行的越具体,就越intitle容易清除重复的内容。

 

2.intitle:"关键字 X - 为什么它很棒"

此运算符可以来识别网络上的重复内容。

Google 会为您提供与该标题匹配的所有网站。有时甚至值得从你的文章中搜索一两个完整的句子,因为一些爬虫可能会改变标题。

避免上述重复内容的简单修复方法有哪些?

您的 URL 中是否有会话 ID?这些通常可以在您的系统设置中禁用。你有重复的打印友好页面吗?这些是完全没有必要的:您应该只使用打印样式表。您是否在 WordPress 中使用评论分页?您应该在 99% 的网站上禁用此功能(在设置 » 讨论下)。你的参数顺序不同吗?告诉您的程序员构建一个脚本以始终以相同的顺序放置参数(这通常称为 URL 工厂)。是否存在跟踪链接问题?在大多数情况下,您可以使用基于hash tag的活动跟踪,而不是基于参数的活动跟踪。您有 WWW 与非 WWW 的问题吗?选择一个并通过将一个重定向到另一个来坚持下去 。您还可以在 Google 网站管理员工具中设置首选项,但您必须声明两个版本的域名。

重复内容的实用解决方案有哪些?

需要确认内容的规范 URL,告知谷歌哪个是规范化的URL, 有四种解决重复内容问题的方法,按优先顺序排列:

1. 不创建重复的内容2. 将重复内容重定向到规范 URL3. 向重复页面添加规范链接元素4. 将重复页面的 HTML 链接添加到规范页面

关于重复内容的解决方案,也可参考:解决网站重复性内容页面的6种方法

(6种方法包括:301重定向,rel规范,元索引,添加内容,URL变体,HTTP与HTTPS或WWW与非WWW页面。)

THE END
分享
二维码
海报
网站重复内容的8个原因和对应解决方案
什么是重复内容? 重复内容是在网络上的多个 URL 上的相同内容。因为不止一个 URL显示相同的内容,搜索引擎不知道哪个URL 在搜索结果中列出得更高。因此,他们……
<<上一篇
下一篇>>