搜索引擎怎样判断文章或网页的原始出处？

作者：Zac
更新日期： 2017年01月18日

复制内容网页有的时候会影响网页排名。

比如说原本是你写的文章，本来应该排名很好，但是其他人抄袭或转载你的文章，而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话，你应有的排名就会被那个网页夺走。

那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢？可能有以下几个考虑：

1）网页PR值。网页PR值越高，被认为是原始版本的可能性就越大。

2）网页第一次被收录的时间。网页被搜索引擎收录的时候越早，相比后发现的相同内容的网页来说，被当作原始出处的可能性就越大。

3）域名注册时间。越老的域名上面的网页被当成原始出处的可能性也越大。

4）网站的权威度。这就有点说不清了，可能包含前面3个因素，还有很多其他因素。

但到目前为止，无论以哪一个因素为主，或怎样组合这些因素，都不可能完全正确从多个网页中挑出原始出处。

比如说我这个博客就很新，域名也很新，文章被收录的时间有的时候也不一定是最早的，就权威地位和被信任度来说，也肯定比不上很多中文网站。但我的博客新，我的域名新，并不意味着我的内容就不是原始出处，实际上我的所有博客都是原创。

我最近也发现了很多网站都转载，有的时候是抄袭我的博客内容，很多网站的规模，历史，PR值都比我的网站要高的多。

在检测文章原始出处方面，Google做的比较好，基本上能够正确判断，百度做的就比较差。从我的文章在不同的地方出现的情况看，百度似乎认为域名比较老的就是原创。

这个问题不是网站管理员自己可以解决的，只有依靠搜索引擎算法的改进。

------首次发布日期： 2006年06月17日

12 条评论 “搜索引擎怎样判断文章或网页的原始出处？”

robin说道：

2006年06月18日 10:50 上午

补充一条：

文章页面的反向链接数也应该是判断因素之一。

回复
loserq说道：

2006年06月18日 11:21 上午

很多事情没有一个准头，我去年整理过一篇关于上海工业品志方面的资料，结果轴承网一转，结果我变成复制网页了…但是有一点我相信，与其关注head，不如关注body…

回复
Zac说道：

2006年06月18日 11:35 下午

谢谢robin的补充。

这也是我一直觉得大量内容是很重要的原因之一，总不会我所有文章都被错误当成复制网页吧…

回复
snl说道：

2006年06月19日 3:19 下午

经常需要查找文章的原始版本。我也一直希望搜索引擎能实现这个功能。

现在想起来，最可靠的判断方式还是时间吧。谁最早发布的，谁就是原创。

回复
Zac说道：

2006年06月20日 3:10 上午

问题是真实写作或发布时间是无法判断的。只能是被搜索引擎第一次收录的时间。但原创者的网站可能因为PR低等原因被爬行的频率不高，原创网页很可能没有抄袭或转载的网页收录的早。

回复
东莞网站建设说道：

2007年10月28日 8:27 下午

这个问题说不清的. 人都很难判断,何况搜索引擎乎!

回复
姜东栋说道：

2009年02月13日 12:55 下午

为了避免被恶意采集，可以在网站地图sitemap.xml的里面为每篇文章添加时间，然后将sitemap.html添加上这篇文章的链接，这样搜索引擎在没有到达网页之前也会知道你的这篇文章是什么时候发布的

回复
郑州网络公司说道：

2009年02月13日 4:40 下午

自己转载自己文章的时候，可以转载被完全收录的网站，以避免复制网页的问题，个人见解

回复
早浇田说道：

2009年09月27日 4:55 下午

根据时间来判怎么样，谁最先发表的，是原创的可能性不是最大吗？

回复
Tim说道：

2009年10月12日 6:49 下午

决定权肯定不在我们这里

回复
小欧说道：

2009年11月16日 1:10 下午

第二条：网页第一次被收录的时间。

是指这个网站第一次被搜索引擎收录的时间呢？还是原创内容所在的这个页面被搜索引擎收录的时间。

谢谢Zac老师。

回复
sa说道：

2013年03月1日 9:54 上午

第二条：网页第一次被收录的时间。

是指这个网站第一次被搜索引擎收录的时间呢？还是原创内容所在的这个页面被搜索引擎收录的时间。

谢谢Zac老师。

回复

SEO每天一贴

搜索引擎怎样判断文章或网页的原始出处？

相关帖子

12 条评论 “搜索引擎怎样判断文章或网页的原始出处？”

留个言呗：取消回复

相关帖子

12 条评论 “搜索引擎怎样判断文章或网页的原始出处？”

留个言呗： 取消回复

留个言呗：取消回复