URL网址规范化

网址URL规范化(URL canonicalization)是近一年来在Google搜索结果中出现的一个很大的问题。它指的是搜索引擎挑选最好的URL网址作为真正网址的过程。举例来说,下面这几个URL一般来说指的是同一个文件或网页:

http://www.domainname.com
http://domainname.com
http://www.domainname.com/index.html
http://domainname.com/index.html

但是从技术上来讲,这几个URL网址都是不同的。虽然在绝大部分情况下,这些网址所返回的都是相同的文件,也就是你的主页。但是从技术上来说,主机完全可以对这几个网址返回不同的内容。

当搜索引擎要规范化网址时,搜索引擎需要从这些选择当中挑一个最好的代表。一般来说,你的主页应该是固定的,只有一个。但是有的时候,在很多网站上站长在链接回主页时,所使用的URL并不是唯一的。很可能在你的网站上,一会连到URL http://www.domainname.com,一会儿连到URL http://www.domainname.com/index.html 。

虽然这不会给访客造成什么麻烦,因为这些网址都是同一个文件,但是对Google来说却是造成了困惑,哪一个网址是你真正的主页呢?如果在你的网站上,不同的版本网址都大量出现,那么这两个URL可能都会被Google收录进数据库,这时就会造成复制内容网页。

所谓复制内容网页,指的是两个或多个网页的内容是相同或大部分相似的。很多时候,复制网页有可能是作弊手段。就算不是作弊手段的时候,搜索引擎通常也只会挑出其中一个返回搜索结果,而把其他的复制网页都排在最后面,以至于根本找不到。

当你的网站出现网址URL规范化问题的时候,就有可能造成被怀疑为复制网页,因而影响搜索引擎结果排名。

从Google的角度来说,他们正在发展所谓大爸爸数据中心基本架构,来解决包括URL规范化的问题。但谁知道能不能解决呢?

从站长的角度来考虑,你应该做两件事:

1)你的网站内部在链接到其他网页,尤其是主页时,只使用一种URL。不管是包含www或不包含www,你要由始至终只使用一个版本。这样搜索引擎也就明白哪一个是规范化的主页网址。

2)但是你没办法控制别的网站用哪一个网址连向你的主页。所以你应该在你的主机服务器上,把所有有可能成为主页网址的URL,做301重定向到你所选择的主页网址版本。也就是说,从下面这几个网址

http://domainname.com
http://www.domainname.com/index.html
http://domainname.com/index.html

都要做301重定向到这个网址

http://www.domainname.com

很重要的一点是,如果你的网站出现了URL规范化的问题,千万不能使用Google的网址删除反馈表,来要求删除其中的一个网址版本。比如说,你所要的是带有www的版本

http://www.domainname.com

你千万不能到Google的网站上填表,要求没有www的主页网址

http://domainname.com

被删除掉。因为那样做的话,你整个的域名有可能被删除6个月。

当然,除了包含www和不包含www的两个版本以外,还有其他类型的URL规范化问题。比如有的时候,搜索引擎会去掉或加上网址尾端最后的斜线。有的时候会尝试把大写字母换成小写字母,有的时候可能尝试去掉会话ID(session ID)等等,这些都有可能造成网址规范化问题。

作者: Zac@SEO每天一贴
版权属于: 中新虚拟主机
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

66 条评论 “URL网址规范化

  1. 顶!!!网站优化真的好难,所以偶每天来这学习受用,感谢版主罗。。。。
    google在中国经常会出现打不开的情况(至少现在这个问题一起没解决),所以我们习惯了用百度,有时间可以讨论下baidu的优化更实际些^_^

  2. robinliu: 这一两天会写篇301定向方面更详细的文章。多谢建议。

    Mike:欢迎来我的博客,也谢谢建议。我最近才开始研究中文搜索引擎,过些天会讨论百度排名等的心得。

    不过,所有的搜索引擎优化原则都是相同的。我的经验是,能在google排名好,其他搜索引擎也不会差。

  3. 静态页面怎么做301转向呢?还有在我的网页链到首面是用/index.htm和www.mysite.com 链到同一网页,最近我的收录一直在下降 这算不算规范问题。

  4. 据我所知,HTML无法做301转向。在HTML里只能做JS或META REFRESH,但不是301转向。HTML一被读取,就已经返回200 OK状态码了。

    如果你的页面是ASP或PHP还可以做301转向:

    ASP:

    < %@ Language=VBScript %>
    < % Response.Status="301 Moved Permanently" Response.AddHeader "Location", " http://www.domain.com" >

    PHP:

    Header( “HTTP/1.1 301 Moved Permanently” );
    Header( “Location: http://www.domain.com” );
    ?>

    另外,DOThtaccess文件只是一个普通文字文件,你用Notepad建这个文件,放上指令,存在你帐号的根目录下就行了。不需要修改Apache。

    谢谢你的提醒。

  5. 谢谢,你能够给予回答:DOThtaccess文件是怎么命名的,后缀名是什么,就新建一个什么名:DOThtaccess或是htaccess.dot 还是.Thtaccess因为.Thtaccess在window下不能建

  6. 关于301跳转问题的请教:
    我的网站是由几个大模块组成,为了实现每个大模块由一个二级域名来访问,我把几个二级域名都指向了主站www.chinamtcm.com的主页,然后在主页中用程序来实现跳转,但是我发现这样是违反了301跳转的规范,同时也是影响我们网站排名的,像我这种问题该怎么调整和修改才能实现到301的做法,并能满足我的二级域名访问我模块页面的需求?

  7. 一 问题描述:
    由于业务需要,我需要将来源网站的别名信息
    作为用户信息的一部分,于是我把外链接设置成了:
    http://www.我的域名.com/index.asp?s=来源网站的拼音简写
    二 样例:
    比如这个用户是从百度过来的那么链接URL就是
    http://www.我的域名.com/index.asp?s=baidu
    或者
    http://www.我的域名.com/index.asp?s=baidu_关键词
    三 所以请问:
    1:这样会引起URL网址规范问题吗?
    2:会影响排名吗?。
    3:如果会如何补救?

    四 注:我的域名是www.xian-yuan.com

  8. 怎怎么做域名的重定向啊,要在我的主页上写代码么?还是直接在index.asp上面设置,重定向!我的是iis主机

    我的网站是由几个大模块组成,为了实现每个大模块由一个二级域名来访问,我把几个二级域名都指向了主站www.chinamtcm.com的主页,然后在主页中用程序来实现跳转,但是我发现这样是违反了301跳转的规范,同时也是影响我们网站排名的,像我这种问题该怎么调整和修改才能实现到301的做法,并能满足我的二级域名访问我模块页面的需求?

    楼上的这两个问题也是我想问的,请教!

  9. 你好.我今天才看到了你的文章,文章非常实用,但我是刚学做网站的,对301重定向没有一点基础,我做的网站是www.dg-linhai.com,我只是做了静态网站,没有后台的。只是用Dreamweaver cs3做好网页就用FTP直接上传的。我这样的请问我怎样才能做301重定向。我打电话问空间商他说他也不懂。如果我懂叫我教他操作。直可笑!。能祥细一点给我回复吗,我无限感激!谢谢了。

  10. 我新做了网站替换了原来的网站并用了新IP,百度上显示了新的网站,但快照显示的是新FLS旧网页,快照时间未变。其他新子页面,也在同天抓拍到,但只一天就全没有了。参看百度 唐山创想广告www.tscxgg.cn 敬请您百忙中及时指教

  11. 我现在以现URL网址规范化对新站来说可以减少搜索引擎判断网站的绝对地址做好URL规范化可以更快的收录时间。原来这是SEO的基础,学习了。

  12. 关于网址唯一性,百度“太仓人才网”,第一个阳光版的就是我们的网站,问题是在这个百度结果页面的第二页,收录了很多个title为“太仓找工作-太仓人才网”的地址,仔细一看,是因为这是一个使用get方式的搜索职位的页面。
    所以百度收录了很多,可能分别是(下面的中文是为了说明清楚,实际上已经url编码)
    http://www.tcrcsc.com/page_zwss.php?zwmc=工程师&submit_search_x=1
    http://www.tcrcsc.com/page_zwss.php?zwmc=程序员&submit_search_x=1
    http://www.tcrcsc.com/page_zwss.php?zwmc=文员&submit_search_x=1

    比如这样3个地址,百度就收录了3条,title都是“太仓找工作-太仓人才网”,如果我想要合并权重,如何实现呢?

  13. Hello zac,

    可以问个问题吗? 就是为什么网址中间的斜划线多加几个, 还是同样能打开这个网页呢,比如说http://www.5kplayer.com/video-music-player/media-player-update-for-windows-10.htm 我这样写http://www.5kplayer.com///video-music-player/media-player-update-for-windows-10.htm 或者这样写http://www.5kplayer.com/video-music-player////media-player-update-for-windows-10.htm 都完全可以打开, 为什么呢, 这样是不规范的吧。

    多谢。

    Daisy

Leave a Reply

Your email address will not be published. Required fields are marked *