怎样减少无效URL的爬行和索引 – 无完美解

少年老成的云晨守望同学(题外话:少年老成是好事哈。我20多岁时人家说我像40岁,我40多岁时好多人说我像30多,男人20到50岁可以做到基本一个样子)在网络营销实战密码网站贴了个帖子:透过京东商城看国内一线B2C网站SEO通病。建议先看那个帖子再回来看本帖,不然不容易明白下面在说什么。

简单说,帖子指出一个严重而且现实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统(如选择产品的品牌、价格、尺寸、性能、参数等)会产生大量无效URL,之所以称为无效只是从SEO角度看的,这些URL并不能产生SEO作用,反倒有负面作用,所以这些URL不收录为好,原因包括:

  • 大量过滤条件页面内容重复或极为类似(大量复制内容将使网站整体质量下降)
  • 大量过滤条件页面没有对应产品,页面无内容(如选择“100元以下42寸LED电视”之类的)
  • 绝大部分过滤条件页面没有排名能力(排名能力比分类页面低得多)却浪费一定权重
  • 这些过滤条件页面也不是产品页面收录的必要通道(产品页面应该有其它内链帮助爬行和收录)
  • 爬行大量过滤条件页面极大浪费蜘蛛爬行时间,造成有用页面收录机会下降(过滤条件页面组合起来是巨量的)

那么怎样尽量使这些URL不被爬行和索引、收录呢?前几天的一篇帖子如何隐藏内容也可能成为SEO问题讨论的是类似问题,这种过滤页面就是想隐藏的内容种类之一。不过可惜,我目前想不出完美的解决方法。云晨守望提出两个方法,我觉得都无法完美解决。

一是将不想收录的URL保持为动态URL,甚至故意越动态越好,以阻止被爬行和收录。但是,搜索引擎现在都能爬行、收录动态URL,而且技术上越来越不是问题。虽然参数多到一定程度确实不利于收录,但4、5个参数通常还可以收录。我们无法确认需要多少参数才能阻止收录,所以不能当作一个可靠的方法。而且这些URL接收内链,又没有什么排名能力,还是会浪费一定权重。

第二个方法,robots禁止收录。同样,URL接收了内链也就接收了权重,robots文件禁止爬行这些URL,所以接收的权重不能传递出去(搜索引擎不爬行就不知道有什么导出链接),页面成为权重只进不出的黑洞。

连向这些URL的链接配合nofollow也不完美,和robots禁止类似,nofollow在Google的效果是这些URL没有接收权重,权重却也没有被分配到其它链接上,所以权重同样浪费了。百度据称支持nofollow,但权重怎么处理未知。

将这些URL链接放在Flash、JS里也没有用,搜索引擎已经可以爬行Flash、JS里的链接,而且估计以后越来越擅长爬。很多SEO忽略了的一点是,JS中的链接不仅能被爬,也能传递权重,和正常连接一样。

也可以将过滤条件链接做成AJAX形式,用户点击后不会访问一个新的URL,还是在原来URL上,URL后面加了#,不会被当成不同URL。和JS问题一样,搜索引擎正在积极尝试爬行、抓取AJAX里的内容,这个方法也不保险。

还一个方法是在页面head部分加noindex+follow标签,意即本页面不要索引,但跟踪页面上的链接。这样可以解决复制内容问题,也解决了权重黑洞问题(权重是可以随着导出链接传到其它页面的),不能解决的是浪费蜘蛛爬行时间问题,这些页面还是要被蜘蛛爬行抓取的(然后才能看到页面html里的noindex+follow标签),对某些网站来说,过滤页面数量巨大,爬行了这些页面,蜘蛛就没足够时间爬有用页面了。

再一个可以考虑的方法是隐藏页面(cloaking),也就是用程序检测访问者,是搜索引擎蜘蛛的话返回的页面拿掉这些过滤条件链接,是用户的话才返回正常的有过滤条件的页面。这是一个比较理想的解决方法,唯一的问题是,可能被当作作弊。搜索引擎常跟SEO讲的判断是否作弊的最高原则是:如果没有搜索引擎,你会不会这么做?或者说,某种方法是否只是为了搜索引擎而采用?显然,用cloaking隐藏不想被爬行的URL是为搜索引擎做的,不是为用户做的。虽然这种情况下的cloaking目的是美好的,没有恶意的,但风险是存在的,胆大的可试用。

还一个方法是使用canonical标签,最大问题是百度是否支持未知,而且canonical标签是对搜索引擎的建议,不是指令,也就是说这个标签搜索引擎可能不遵守,等于没用。另外,canonical标签的本意是指定规范化网址,过滤条件页面是否适用有些存疑,毕竟,这些页面上的内容经常是不同的。

目前比较好的方法之一是iframe+robots禁止。将过滤部分代码放进iframe,等于调用其它文件内容,对搜索引擎来说,这部分内容不属于当前页面,也即隐藏了内容。但不属于当前页面不等于不存在,搜索引擎是可以发现iframe中的内容和链接的,还是可能爬行这些URL,所以加robots禁止爬行。iframe中的内容还是会有一些权重流失,但因为iframe里的链接不是从当前页面分流权重,而只是从调用的那个文件分流,所以权重流失是比较少的。除了排版、浏览器兼容性之类的头疼问题,iframe方法的一个潜在问题是被认为作弊的风险。现在搜索引擎一般不认为iframe是作弊,很多广告就是放在iframe中,但隐藏一堆链接和隐藏广告有些微妙的区别。回到搜索引擎判断作弊的总原则上,很难说这不是专门为搜索引擎做的。记得Matt Cutts说过,Google以后可能改变处理iframe的方式,他们还是希望在同一个页面上看到普通用户能看到的所有内容。

总之,对这个现实、严重的问题,我目前没有自己觉得完美的答案。当然,不能完美解决不是就不能活了,不同网站SEO重点不同,具体问题具体分析,采用上述方法中的一种或几种应该可以解决主要问题。

而最最最大的问题还不是上述这些,而是有时候你让这些过滤页面被爬行和收录,这才是杯具的开始。以后再讨论。

------首次发布日期: 2011年12月3日

作者: Zac
版权属于: SEO每天一贴
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



331 条评论 “怎样减少无效URL的爬行和索引 – 无完美解

        1. 想让他收录,但是却不能收录,这才是悲剧,话说——SEO是自然的艺术,既然阻止不了蜘蛛前进的脚步就让他去吧,换个思路再来。

  1. 搜索永远是seo的话题,研究的结果各种各样,只有用户才是我们服务的上帝。抓住了用户,只要解决搜索问题即可。现在越来越多的seo只是一知半解,正途没有学会,反而学会了模棱两可,甚至背道而驰。

  2. 隐藏的方式disuzs论坛中大量运营了,搜索引擎看到的和访客看到的url是不一样,大家可以测试下。不过这样的方式不是很好,风险太大,还有disuzs论坛程序seo方面很差、

  3. 像京东这样的大站基本都要做百度推广才行哦,再说了,名气在外,排名这事根本不用担心,Zac老师这句户很是经典“SEO每天一贴-Zac博客。老三还是那个老三。想长寿,远离SEO。 ” 佩服 佩服啊 呵呵 …..

  4. 1 用网站分析工具先大致确认下这些url带参数的页面通过搜索引擎带来的流量,关键字分布情况
    2 如果要决定禁止收录类似过滤参数页面的话, “noindex, follow” + canonical的效果要比单纯的nofollow要好一些吧。另外,google, bing的网站管理员工具里面都有了 URL Parameter Blocking功能,缺点是对其他搜索引擎没效果。

  5. 嗯,这个问题确实很难解决,除非搜索引擎变得更智能,明白几个页面内容相同但是排序不同是为什么,并知道如何选择给出搜索结果。

  6. 其实还有个办法就是不用动态或者静态页面显示相同的内容,只用一个绝对地址显示一个标准内容,如果根据不同条件进行判断的话使用内部命令或者在url后面加#带参数,因为搜索因为对于#号代表的是网页内部的不同标签,默认是不会抓取这个#号的。

  7. 搜索引擎常跟SEO讲的判断是否作弊的最高原则是:如果没有搜索引擎,你会不会这么做?
    对于这点,不太赞同。
    这样的搜索引擎只能是个不成熟的搜索引擎,是否好歹不分的搜索引擎。
    SEO不就是为了能对搜索引擎友好吗,简单的例子,为什么url伪静态,url标准化,不也是对搜索引擎的吗, 对用户,有几个人能记住url(不管你有没有伪静态),这样难道也会被判作弊?

    只是可能目前搜索引擎还是不够成熟,是否好歹还是分不清,所以,不常规的SEO手法都可能被判作作弊了。

  8. 这其实还是搜索引擎以链接为基础来设计排名算法带来的毛病,b2c的产品条件过滤系统的用户体验还是很好的,如果以后搜索引擎真的以用户体验为基础来计算排名的话,这个应该不是什么问题吧。

  9. 将这些URL链接放在Flash、JS里也没有用,搜索引擎已经可以爬行Flash、JS里的链接,而且估计以后越来越擅长爬。很多SEO忽略了的一点是,JS中的链接不仅能被爬,也能传递权重,和正常连接一样。
    想问下ZAC老师,对于这点主要是指谷歌还是百度呢?还是百度现在也能很智能的抓取JS和FLASH里的链接呢?
    如果把页面放框架里是否也能顺利读取呢?

  10. seo是为整个营销服务的,感觉大家都在走胡同,其实极致不是好事,就如广告的感念一样,重复出现可以增加被熟悉,大的电子商务平台自身品牌营销才是重点,我们不要放大seo的作用,正如乐风网在seo方面已经是走第三代路线的时候他们送货的包装却不如地摊上小货的包装,无形中已经破坏了形象,所以我们不要看了一面而忘记了全部,消费者喜欢,消费者用的舒服才是真的好。

  11. 没有想到我的一片帖子让Zac专门为我写了一篇文章来分析,真是受宠若惊啊!Zac的策略很有深度,这块我还会具体的分析,然后和您再次沟通!谢谢您的付出!

  12. 看到云晨守望的帖子进了ZAC的网站,并且还进行了两次回复。结果,真的写了博客来解释。守望今天给我这个链接,进来看看。学到不少东西,呵呵。老牛不怎么喜欢注重一些细节,习惯了抓大放小。不过,该知道的还是要学习的,嘿嘿。

  13. 每次赶不上前几名的沙发,是我懒了,还是网站更新好,人员学习者太多了,我想应当是学习者众多了…

  14. 月汐认为,此问题非SEO从业者单方面的力量可以解决的。
    网站为用户体验而设置的功能,在SEO方面却成了“无效页面”;而SEO是从搜索引擎原理出发考虑的;而搜索引擎的最高指导思想又是一切为了用户体验;因此SEO的最终宗旨亦是用户体验,看来大家的目的都是一样的,所谓万法归宗。
    但各方面为了共同一个目的,却引来了不同的思考与做法,这就是哲学中所谓的事情发展过程中出现矛盾是必然的。解决矛盾,又不可能由矛盾的任意一方来承担,而必须是由矛盾双方或多方来共同解决完善的。
    ZAC先生对此问题的分析,已经把SEO人员现有的方法尽数举出,但仍不能纠其根本。那月汐认为,我们只能等待矛盾的另一方的出现,来共同完成此难题了,那就是搜索引擎的改进。其实搜索引擎在不久的将来,意识到此问题的重要性后,只要发布一个标签,或利用现有的canonical标签,赋予它功能:只要在页面使用此标签者,便认为此页面与被指向页面具有相同的价值及含义,而此页面产权的额外权重会适当的进行转移向指向页面。
    这样一来,SEO人员正确应用此标签,问题便可迎刃而解。而SEO人员也不必再为此烦恼。但有一些月汐想说,SEO本身就是一衍生行业,是依附与搜索引擎基础之上。所以在将来的发展中,矛盾还是会不断的出现,永远不会停止。只是解决方法需要我们不停的思考。
    鸣:SEO与搜索引擎在今天已经完全是互利共存的关系,而非十年前的敌我关系。

  15. 你好。
    刚才把您这篇文章标题“怎样减少无效URL的爬行和索引”放入百度搜索,发现不少论坛转贴的反而排在前面。
    我想问一下用wordpress建的博客是不是在百度很难有好的排名呀?

  16. 我的网站最近新增了“网址导航”版块,我现在也不知道是否应该设置robots,都是无偿给它们做的导航链,分散权重非常厉害。。。
    纠结中

  17. 如果在谷歌管理中心提交sitemap地址,google会不会优先抓去sitemap的地址呢?这样可以保证主要内容第一时间被抓取,然后再将那些过滤的url做一定的处理,是否要抓取以及权重分配问题。

  18. zac最后说的没错,有的时候确实需要这些过滤页面被索引和收录,因为有排名能力,看兰亭做法是到了第2个过滤条件nofollow,zac赶紧说说后面的吧。

  19. 我是一个seo新手,我想更好的记录自己学习的整个过程,所以我也写了个博客,并且无耻的想拿SEO艺术这个词来分zac老师一点流量。我会把我的一些见解写在博客上,希望各位大侠能给一些指点。

  20. 博主能给个http://www.zaccode.com/网络营销实战密码的邀请码吗?
    这个网站和你的书一样的名字 买了你的书 还想进去学习下
    谢谢了

  21. 我公司一个商城就是要让蜘蛛爬取和收录这些筛选页面,某些页面还要专门拿来推广;不过筛选出来的结果很多也都是空的

  22. 这个问题有意思,想不让百度等网站收录真的是一件很不容易的事情,对于每个seoer来说,这是不在他们考虑范围类的,但是,为了刚好的被收录,还是需要了解的。

  23. 好久没做seo了,最近又做了两个站 衣香丽影 http://www.yixiangliying8.com/ 纳纹服饰 http://www.aiwuyan184.com/ 这两个站,前面一个做了大概5个多月了吧,关键词始终没上首页,以前刚做seo的时候有狠多次我都优化上首页第一过,而且难度比这些词的难度高多了,感觉那时候seo很简单,只要把网站设置的符合seo一点,换几个友情链接,不用管理自然就上首页了,可是现在的优化,每天坚持更新,每天坚持发外链还是上不去,http://www.aiwuyan184.com/ 这个站我才做几天,域名以前用过几天,都上线好几个星期了,才被百度收录首页,现在的优化我不知道从何下手,请坛子里的高手出来分享下自己对seo的简介吧

  24. 现在SEO行业 已经大大不同了啊 需要做的很多,或许我想以后它会想网络营销方面来演变,让更多的访问网站记住这个品牌就比如 我们的大神ZAC这么出名,这就是很好的网络营销,而技术会越来越普遍和简单,个人和 公司都能掌握,但会越来越注重SEO的策略,如何让用户喜欢你的网站 如何让他们成为你的粉丝。如何将品牌宣传出去,如何与用户进行网络的互动 等等,今天就想到这么多,只是个人意见。感想出自
    河南升龙 http://www.jqkcj.com

  25. 页面成为权重只进不出的黑洞? 你的意思是权重成为只进不出的页面,对页面来说效果不好?这个理论依据从何而来?还请赐教下

  26. 有人说b2c做长尾词 靠得就是不同筛选条件组合形成长尾词,并且获取搜索排名及流量,那既然筛选条件组合没有排名能力,那这种获取长尾组合怎么实现?

  27. 求指教一个网站 一个企业站 内页权重为什么能这么高,高过百科文库,很纳闷,求大侠指点www。tzliba。com 用句号做了,免得有做外联嫌疑。

  28. 我的网站已经上线一个月了,但是百度和谷歌基本上不收录我网站的文章,不知道是什么原因?另外请教一下,不知道是不是要全面放开robots.txt的限制,我们限制的基本是后台等等网址。

  29. 看大家名字广告都那么好,想请教问题,所以就不打名字的广告了,
    Zac老师,关注你的站和微博也有一段时间了,呵呵,潜水较多;因为最近负责一个公司的英文站,初步接触seo,碰到个难题跟这篇主题比较接近的,又挺担心因为问题太小白了,大师们都不愿意回答,一直不知道该不该请教,不过在百度找不到解答,还是冒昧求解老师来了。
    http://www.google.com/#sclient=psy-ab&hl=en&site=&source=hp&q=Cup-Like+IPhone+Dual+Suction+Stand&pbx=1&oq=Cup-Like+IPhone+Dual+Suction+Stand&aq=f&aqi=&aql=&gs_sm=e&gs_upl=899l899l0l1878l1l1l0l0l0l0l0l0ll0l0&bav=on.2,or.r_gc.r_pw.,cf.osb&fp=42968ebfcff76b1d&biw=1366&bih=608
    (发不了图片只能发链接)
    通过一段时间观察,我发现google抓取应该是按照自己站里设定的一套规则爬行的,通过上面连接中显示的前3个搜索结果中,我自己总结如下:
    1)最上面那篇应该是对站内进行了优化后抓取的,因为url显示的是最新的html形式
    2)中间那个从url看搜索引擎应该是从tag、分类抓取的,站内应该没有进行过优化,显示的内容比较杂乱
    3)第三个应该是网站首页抓取的,也是没有进行过优化抓取的,应该是在那天更新这篇文章的时候抓取的
    根据自己整理的东西我感觉有2点疑问:
    1.所有3个文章搜索结果,会重复显示一下标题(title已经有文章标题了,在description里面依然会抓取一次文章标题+发表时间,重复显示),是不是因为什么路径多了,让蜘蛛多爬了一次,要怎么修改这个;
    2. 第二个结果url显示的是 http://www.xxx.com/tag/dual stand,难道蜘蛛是通过tags来抓取的这个文章,为什么显示的description却非常杂乱,显示了很多标签,我优化内部结构的时候应该怎么样调整蜘蛛爬行的路径,
    PS:有没有讲解蜘蛛站内爬行路径一类的详解文章?我网站的结构比较简单,主页,栏目页/分类,tags:http://www.jamesbom.com/sitemap

    谢谢,老师,希望有幸赐教!

  30. 我买老师的书有一段时间了,学习了非常多.尤其是案例哪.我是做B2C的.我们主要做护肤品.通过按老师的书上学习,6个月后,我的网站的关键词基上排在前三.但是,我的网站用百度统计里面的SEO建议,”您的网站http://www.wmzmd.com测试得分:46分 ,我网站keywords和description的meta标签都按老师说的操作了.没有减分.图片Alt信息和Frame信息减36分,静态页参数 在静态页面上使用动态参数,会造成spider多次和重复抓取  这个减了18分”.这三个地方不知道如何修改.
    我的网址是.http://www.wmzmd.com

  31. 这种情况确实非常多,不仅是电商,任何属性多的产品网站都存在。这个确实是网站为了更好的用户体验规划的筛选条件,和并不十分智能搜索引擎,在现有的技术手段上产生了矛盾冲突。网站想不到办法告诉搜索引擎不要在那些无效的页面上浪费时间。
    网站本是一片好意,但是搜索引擎分不清主次,统统一把抓。
    那么多方法都无法完美解决。。。。。
    其实还有一种方法,不知可行否?
    就是筛选没结果的页面,可以随机推荐数款产品。这样是否可以避免重复页面的问题?
    当然,还是避免不了权值浪费和蜘蛛浪费时间的问题。。。

  32. 恩,分析的很到位,确实有太多的垃圾URL影响网站的收录,只是一般大型的网站,缺乏这种检查的习惯,不过使用一些工具每天专门去检查,应该可以解决这个问题吧。

  33. 关于减少无效URL的爬行和索引的方法思考:http://seo.tanlang.net/?p=370 找出了解决方法,但是不知道对不对还望ZAC大大看看。。

  34. 可问题是随着公司技术人员的离职,入职,网站可能会产生大量的垃圾页面,重复页面。因为都与正常终极页是在同一个目录下(三个页面asp,html,shtml,还有一个是在html+id 技术方便调取。。造成了大量重复页面),这些页面的屏蔽是很麻烦的,一个个处理,对于大量的页面来说不可能。批量处理的话,我只能用robots屏蔽。今惊闻老师说不传递权重,是无底洞。那我这就悲剧了。

  35. 由于客户的要求和网站发展遇到瓶颈,网站由www.cnny001.com升级到www.nongyao001.com,由于新网站运用了很多老网站数据(必须运用),导致新网站其两个栏目一直不收录,望指教一下。

    1. 自己问自己一个,如果蜘蛛自己去组合了一些我们未露出的url怎么办?
      没有结果的的条件组合,程序判断直接返回404,可行否?

  36. 我想问下, 一个黑客能变成一个黑帽seo吗?

    现在我在小组内经常看到有人收百度权重高的站点。

    估计就是做这个吧。。

  37. 如果URL有统一的差异性是否可以尝试把统一规则差异化的URL用rewrite写一下,这样重写后的响应结果都是一个网址(不管选择哪一个或者几个规则)。暂时自己还没有B2C没法做实验只能想想。希望有用,有实践的招呼一声。

  38. 不错,很详细,也比较专业,值得多读几次,不断的加深学习。相信很多B2C类的网站只要有考虑SEO的话,也一直有关注这样的问题的。

  39. 大部分电商网站都会遇到这个问题,三年前操作门户的时候我意识到过这个问题,这样的页面可以达到几十万页,非常恐怖。
    近期我给一个电商做的方法是:先判断筛选是否为空,如果是空的话,不出现该筛选链接;筛选过程标题调取筛选条件,可以使页面尽量不一致;筛选结果页面中,利用筛选条件自动生成一两句话,也可以造成一定的差别;另外使用nofollow对于没必要的参数进行过滤,比如:颜色等。

  40. 最近我的一个站也是出现了这种问题。这种组合赛选页浪费了大量蜘蛛爬行,而使得其他页面没有被爬行。索性用robots直接禁止了这一部分页面,其他页面爬行立马顺畅了。

    1. 补充,也是在想办法解决这里的问题,不能让这一部分内容在搜索引擎变成空白。里面还有很多大流量的长尾词有着竞争力。求指点。

  41. 1,避免无效url有入口,
    如:选择了一个条件 : “100元一下” ,那品牌的里:就选不了“爱马仕”
    2,访问无效url时返回301,或404,

  42. 做seo太累了,最近学了seo后一口气做了4个网站http://www.seojyb.com和http://www.noligz.com和http://www.haononi.com还有一个http://www.wabgy.com都是在2011年11月10日至2011年12月1日之间做的做了差不多都有一个月了,百度始终只收录我的首页,以前刚学seo的时候感觉seo很简单,只要把网站设置的符合seo一点,每天写一篇文章、换几个友情链接、发几条外链就可以了!可是经过这一个月的折腾,我发现我错了,seo太难了,我都不知道我能不能坚持下去!现在的优化我不知道我该怎么去做了,希望有好老师对我指点一二!在下感激不尽!QQ402278209

  43. 哈哈! 昨天买了你写的书,真是受益匪浅啊! 今天在百度搜索 seo你的站竟然在
    第一页第三名 厉害厉害。 在看看我的站八世纪供求网 真是垃圾死了。希望我能吸收你的书的精华。能把我的站优化一下。 小站http://www.80g.cc

  44. 前辈能不能解释下?
    为什么JS+robots.txt不能完美解决呢?
    蜘蛛虽然能爬行简单JS,但是复杂的JS函数它并不能识别,就算可以识别较简单函数,JS函数产生的链接,在页面上并不会产生《a》标签或者表单链接,也不会有权重流失的现象。robots.txt禁止JS所产生出来的真实链接即可。

  45. 有些天没来zac老师博客了,文章不少哇!
    zac老师说的是将所有筛选条件都屏蔽掉还是只选没有意义的屏蔽?
    没有意义的URL具体指的哪些呢?

  46. 有空帮我看看我的网站好吗?左边区域的文章不收录只收录右边的,郁闷了,99bbshuang.com

  47. 我觉得seo不能太多关注技术,还是策略取胜吧。就像那个云什么望的,难道url名字一改就会起到颠覆性变化吧,可能性不大。

  48. 想了解一下,做关键词的话都是从什么方向开始下手呢。最近一直在迷惑中,最近的排名有时候下降的厉害。而且快照不怎么更新

  49. 一个问题,在B2C网站中,我们最渴望被收录的是产品的页面,还是这些由过滤条件生成的页面。

  50. 真的,我觉得楼主说的很对,看看网上,每天一个标题的信息就一大把,看内容基本上都是相同的….有些时候自己一篇文章发上去,个秒就被转载了,更气人的是你的没被收录,他的到被收录了….

  51. 技术上是可以解决的。
    如果我没理解错的话,原因是8.9寸这样的词,没有长尾的意义,不想让他们出现在url中,又要完成搜索。
    解决办法:把他们放在cookie中。这样url上不会有尾巴参数,后台程序又能够读取到实际的参数。
    如果是从百度来的,这时cookie没有值,那么就是不限;选择了8.9寸时,用js把这个值写入cookie中,那么对于后台程序来说就是页面跳转,后台程序读取cookie,加入到读取数据的条件中。这样显示的数据是对的,但是url地址没有变化。而且就算蜘蛛抓取了js,也是对cookie的读写,里面没有和url有关内容。
    问题就得到解决了,不知我说的是否正确,有问题讨论可以给我发邮件。

  52. ZAC老师不错学习了,不过相对百度 外链 跟文章质量 还有 一些权重的传递 一个页面每天不定时更新 这些 对于百度主要依赖哪些 权重的分散真的对排名 起到很大的作用吗

  53. 有一些网站之所以选择用属性筛选这个功能,就是为了增加页面,有的很小的商城,收录数量却达到了百万级,而且多数都是组合页,尤其是谷歌,对组合页从来都是来者不拒,现在看来,这个方法并不好

  54. 或许google现在已经在对购物网站进行区别对待了 针对这类网站的特性进行不同的抓取策略
    这点上让google或者baidu来至上而下地解决问题似乎更完美些

  55. 看的蒙蒙呼呼的,不过对nofollow有了一个新的认识。(连向这些URL的链接配合nofollow也不完美,和robots禁止类似,nofollow在Google的效果是这些URL没有接收权重,权重却也没有被分配到其它链接上,所以权重同样浪费了。百度据称支持nofollow,但权重怎么处理未知。)

  56. 我是一个印刷品设计公司的负责人,看了书后,觉得以前对网络营销的概念太狭小了。而且也忽视了网络营销,现在越来越多的客户通过网络来了解我公司,洽谈业务,真的要好好学习了

  57. 一直认为是zac老师是这方面最精英的一个,看完了您写的其中一本书,发现了seo是一个系统的工程,我们能从宏观上把握seo,也能学到不少别人从来没有用到过的工具,现在在看另外一本书《seo实战密码》后来也让我观念发生了变化,你的确说得很有道理,seo只是网络营销的一个方面,特别是博客留言方面,我们都应该做得很有诚意,我也很痛恨那些发广告留言的,这样不仅得不到很多好处,反而会让博客主感觉到厌烦。

  58. 老师请你帮忙看下网站,网站上线快一个月了,百度就是不收录(新申请的域名)。
    网站地址:http://www.sqzfw.net/

    请看过发邮件说明什么问题!谢谢老师。

    1. 我倒有个想法,但不知道程序能否实现。在程序中设定所有不包含商品的页面,也就是文章中说的无效URL统统取消,无论是用户还是搜索引擎都看不到这个链接,也其实也是改进用户体验的一种。

  59. 我这里有一个应该还算完美吧,因为我自己已经测试过好几遍了,目前一切正常,不希望被收录的页面一条也没有被收录! 我的方法:不希望被收录的所有连接都加上nofollow属性,然后这些链接用外部调用的JS代码来加载,就是说当用户来访问我们的网站的时候,那些链接都会正常显示的,但是你点开这个页面查看源代码的时候,在源代码里面根本找不到这些链接。我的看法是:谷歌在这个页面找不到这些链接,所以就不会有权重的传递,其次,就算他会去分析那个外部的JS文件,也找到了哪些链接,由于哪些链接都加了nofollow,是不会被收录的!不过这些都要在网站上线之前都弄好,要不被收录了以后,就算这样做了,权重也有可能会传递过去!

  60. 新人,一直很崇拜zac大神,不过写的东西基本不太明白,努力学习中
    可不可以有这种思路啊:1,在搜索后增加条件一个“条件筛选搜索”按钮,该按钮用NF来防止爬行,用户搜索的时候就分成了2种情况,一种是正常的搜索,一种是条件帅选
    2,建立一个单独的页面或者模块,针对某一类产品来列出搜索条件。比如在导航栏建立一个独立的分类目录,列出大类,供用户点击进去搜索。
    不知道行不,新人,乱语,勿怪

  61. 大哥,你多观察下身边的大门户你就会发现完美解决方案!其实你这个问题可以用编程的思路来解决,加油!

  62. 现在外链是不是 越来越不好做了啊 !我就想有什么好的办法 做一些高质量的链接啊 !网站的排名也是不见提高啊 !

  63. 某栏目采用已经有1个月了,栏目及其文章依旧在更新快照(百度、谷歌、搜狗都在更新),刚看了一下是昨天的快照,不知为何…

  64. ——————– ZAC ,请回复!————————
    我是强烈赞赏京东的这种链接方式的,,,,成就了很多长尾词,并且排名还很不错,
    比如谷歌搜索: SanDisk8GU盘 ,,,谷歌排名第一

    ps:既然它有那么多产品,何不利用起来这些更精准的长尾词!

    1. 是的。但你得仔细看要收录到多深,比如你说的页面再分按价格排序、再翻页什么的,估计就没有用了。另外,权重一般的网站也不能这么做,不然连收录可能都成问题。

      1. 确实是这样,可以说这里是个黑洞,如果搜索条件多,创造上百万个地址都有可能。
        我现在的网站收录了很多这样的组合地址,导致栏目页面不收录。
        暂时也很无解。。。

  65. 其实这些方案,就算他们知道,也可能不会实施的,我经历好多这种事,方案提出来,会有冲突的,而且是不可调和的,最终结果就是妥协,也就是说,不是所有的SEO想法最终能实现,所以真正考验一个SEOER水平的不光是技术,还有重要的沟通和执行能力,方案定出来,能完成到什么程度才是最关键。

  66. iframe里存在的url是能被抓取的。如果放的位置在权重比较高的页面上。抓取量还是比较惊人的。 特别是些抓取量在十万以上的网站中。
    我这里就遇到了这个问题。 在页头展示客户广告的iframe里放了单独的一个二级域名的的广告链接 《iframe src=”123.abc.html”> 结果发现了数以万计的抓取记录,且全是200 用过robots屏蔽。 效果相当差。 请zac指教下。
    现在考虑用封装的加密url地址。来避免抓取,但会带来大量服务器负担。

  67. robots禁止收录。同样,URL接收了内链也就接收了权重,robots文件禁止爬行这些URL,所以接收的权重不能传递出去。
    对这句的理解不是很好,权重到底是如何传递的那?

  68. 最近一直被这个问题所困扰
    1、用rotot屏蔽了这个栏目,很多长尾关键字被放弃了。
    2、不屏蔽这个搜索呢,造成了蜘蛛爬行的浪费。收录了很多重复页面。
    真的很烦人啊

  69. canonical现在对谷歌还有没有效果,在兰亭上发现每个页面都带了canonical标签,还有左侧筛选功能也加了这个标签,但是链接加的是“/”,这应该表示指向首页吧?

  70. 哈哈哈,不久前我参加太平洋一个面试,其中就问到这个问题,我当时也是只能回答nofollow和robots文件的运用,但后来我回头看了太平洋电脑网那产品库,惊喜地发现他们的方法,而且十分的好,就是不产生链接,假如这参数没有产品,那么无法选择!这确实是不错的方法,很好地避免蜘蛛的浪费。当然这不是一个完美的方法,但确实是当下最好的一个!从用户体验的角度来说则是最好的!

  71. 搜索永远是seo的话题,研究的结果各种各样,只有用户才是我们服务的上帝。抓住了用户,只要解决搜索问题即可。现在越来越多的seo只是一知半解,正途没有学会,反而学会了模棱两可,甚至背道而驰。

    普宁SEO分享优化技术http://www.yangqinhong.com/欢迎访问。

  72. 这个帖子很有含金量,收藏阅读。开启卢松松评论模式,日评100条,第三天,欢迎交流。微信:jiangtian-net-studio,公众号:Jiangtaigong66

  73. 老师说的问题主要是两点,
    1、数据量太少,过滤不出内容
    ——过滤条件与数据量相对应,合适的才是最好的,不要设置太多过滤条件。
    2、页面内容重复,大量垃圾页面
    ——把过滤条件带入到结果页面的标题、描述等HTML文本中,增强差异化。
    比如,国内某客车网站的产品过滤页面:
    类型、配置、区域等条件带入到新页面HTML中。
    City buses For Sale_Models,Prices_YUTONG
    【10-11 Meters】City buses For Sale_Models,Prices_YUTONG
    【10-11 Meters】City buses For Sale in Africa_Models,Prices_YUTONG

  74. 既然产生了这些URL证明还是有用户需求的, 我的操作方法是根据动态内容新创建一个tag标签,把这些动态的URL用301重定向到tag标签所在的URL,当然这些新建的tag标签也是要做一些TDK优化的,这样权重会通过301重定向到tag标签的URL,TAG标签的页面也要再做一些内链把权重传递到需要排名的关键词页面

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。