Google爬行缓存代理（crawl caching proxy）

作者：Zac
更新日期： 2017年01月22日

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应，对这种现象做了进一步解释。

简单来说，Google在完成大爸爸数据中心升级后，各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页，而是由一个爬行缓存代理crawl caching proxy抓取网页，然后不同的蜘蛛从这个缓存中获取内容，从而节省了带宽。

Matt Cutts的帖子比较完整的翻译可以在幻灭和小添的博客里看到。

我要补充的是：第一：Matt Cutts特意指出，这个新的抓取机制不会让你的网页被抓取的更快，也不会对排名有任何影响。这个爬行缓存代理也不影响各个蜘蛛本来应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页，而是从缓存中获取。

第二：更引起我注意的是，Matt Cutts说这个爬行缓存代理是大爸爸更新之后才有的。因为运行的很顺利，在其他人发现这种现象之前，Matt Cutts自己没意识到这种新的机制已经运行了。这说明Matt Cutts并不能掌握所有各个部门的最新情况，那么还有什么是Matt Cutts也还不知道的呢？

第三：Matt Cutts讲这个机制的目标是节省带宽，而不是隐藏页面（cloaked page）检测。我觉得弦外之音是，利用同样的技术，Google完全可以用其他的蜘蛛来检测隐藏页面。当然也可能是我过度敏感了。

另外，最近很多网站出现被收录的页面数目急剧下降的现象，我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降，而是蜘蛛爬行的问题。

------首次发布日期： 2006年04月29日

11 条评论 “Google爬行缓存代理（crawl caching proxy）”

鸟山鸣888说道：

2006年08月16日 7:55 下午

对，这文章确实说到点子上了，上面的情况我可以作实，我seo我的个人网站时候就遇到这情况，所以不要心急

回复
经典语录网说道：

2006年10月7日 3:26 上午

这个东西确实是很奇怪。也很深奥

回复
pksell说道：

2006年10月13日 10:53 上午

原来GOOGLE比百度更新快现在比百度慢了查询收录数目也是变化无常百度就相对稳定还是水土不符的感觉

回复
站长心路说道：

2007年09月11日 10:58 上午

能说下你的加入到百度搜藏是怎么弄的吗？谢谢

回复
二手车说道：

2007年10月4日 12:39 上午

Google爬行缓存代理（crawl caching proxy）是什么呢？

回复
义乌小商品团购网说道：

2007年11月14日 8:20 上午

这个东西确实是很奇怪。也很深奥

回复
山东seo说道：

2007年11月17日 3:37 下午

技术在进步呀。呵呵

回复
周易说道：

2008年10月2日 11:13 上午

技术在进步呀。呵呵

回复
郑州建网站说道：

2008年12月30日 7:14 下午

慢慢学习吧我很有耐心滴 …

回复
398159401说道：

2010年02月1日 12:24 下午

看zac的博客学知识，有时候也very锻炼心智。看看时间吧–06年，再看看内容 “Matt Cutts讲这个机制的目标是节省带宽，而不是隐藏页面检测。我觉得弦外之音是，利用同样的技术，Google完全可以用其他的蜘蛛来检测隐藏页面。”、 “最近很多网站出现被收录的页面数目急剧下降的现象，我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降，而是蜘蛛爬行的问题”
好深的一道沟，排名算法相关的都还差着呢，蜘蛛爬行相关的也半吊子，日夜狂追的居然是06年的！这样一个境界加这么长时间都不怎么出手了。。。。
另外还不知道我这样读到了多少。。。。

回复
叶德华的SEO博客说道：

2012年10月25日 10:52 下午

第三点的分析，很有道理。

回复

SEO每天一贴

Google爬行缓存代理（crawl caching proxy）

相关帖子

11 条评论 “Google爬行缓存代理（crawl caching proxy）”

留个言呗：取消回复

相关帖子

11 条评论 “Google爬行缓存代理（crawl caching proxy）”

留个言呗： 取消回复

留个言呗：取消回复