李彦宏超链分析和Google PR专利的区别

最早了解李彦宏超链分析专利是在洪波的博客中看到一篇文章:超链分析和PageRank的专利问题,才第一次知道百度总裁李彦宏曾经申请并获得对于超链接分析的专利,这份专利申请文件在美国专利局网站看到。李彦宏这个专利申请是在Google申请他们自己的PageRank专利之前的。

由于这两份专利都是研究网页链接的,而且这两个专利的发明人是现在两大搜索引擎的创始人,所以很多人对这两个技术专利分不大清楚。甚至有的人直觉这两个专利是相似的或有抄袭嫌疑,这牵扯到两家公司的核心利益了。这两份专利我都认真读了原文,谈一下我的看法。

我的理解是,这两个专利是有相当大的区别的,要解决的问题和实施方法都不一样,但研究对象是一样的,都是页面链接。

超链分析要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是,除了文件本身肯定要使用关键词外,还需要考虑反向链接中的关键词因素。

具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接使用的锚文字(链接文字),一同记录在案。而关键词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。

当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。也就是今天SEO们的常识:链接锚文字会提高页面与关键词的相关性。

这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。

这篇专利申请中已经提到了词干技术,而且提到了不同语言文件的相关性。

在搜索算法中考虑链接,主要是链接锚文字,是李彦宏的首创,有可能Google创始人提出PR值理论时受到过李彦宏专利的启发,他们听过李彦宏的演讲,还向李彦宏请教过问题。

Google的PR专利是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值

你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。

Google的专利申请当中给出了具体怎样计算这个被称为PageRank的重要性指标,简称PR值。PR的计算需要进行多个循环的替代计算,才能收敛到一个稳定值,通常PR值收敛到一定精度就可以了,没必要计算出最终值。

Google PR是与搜索词无关的,或者说与文件相关性无关的。它只描述某一个文件的重要性或地位。

就目前所有搜索引擎的表现来看,可以肯定这两个技术都已经被应用在排名算法中了,虽然可能名字不一样。当然,现在的搜索算法比当初的要复杂多了,超链分析和PR值算法现在肯定也经过了很多修改。

作者: [email protected]每天一贴
版权属于: 中新虚拟主机
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



42 条评论 “李彦宏超链分析和Google PR专利的区别

  1. PageRank 是一个很棒的双关语,它是源自 Larry Page 的姓,刚好 Page 就可以解作网页,我觉得把它译作”网页级别” 或用音译都不能完全代表它的意思,所以还是用原文 PageRank 比较好。

  2. 今天突然要用到李彦宏的专利,结果在google一搜,zac的博客文章也就是本文排在第一。以前一直以为pr和李彦宏的超链分析是差不多的,读完才晓得其实是两回事,而且可以确信的是在百度和google的排名因素中都起到了作用

  3. 我检索了一下李彦宏的专利,似乎没有超链分析这一项?

    1 02100552.4 一种使用快照的方式实现对网上信息进行记录和分析的方法
    2 02117998.0 一种利用搜索引擎发布信息并按竞价排名的方法
    3 00124352.7 中文姓名的计算机识别及检索方法
    4 01102225.6 高隔热、高隔音玻璃及其制作方法
    5 200610098591.6 应用于互联网搜索引擎的广告展现系统及广告展现方法
    6 200610098592.0 广告信息检索系统及广告信息检索方法
    7 200610098593.5 访问标识索引系统及访问标识索引库生成方法
    8 200610141165.6 网络社区中相关讨论区的选取方法及选取装置
    9 200610140848.X 网络社区动态目录的构建系统和方法
    10 200610140849.4 网络社区与搜索的结合的方法以及系统
    11 200610140847.5 网络留言系统及留言过滤方法

  4. 我觉得搜索引擎这个东西其实大家的核心问题都差不多的!
    但是,google他比较愿意吧一个规则制定出来,大家在这个规则下一起玩游戏,
    而百度却在这个方面有欠缺!光故着自己玩和$了!

  5. 百度的搜索有时候太商业化了,为什么这么讲?
    作为竞争对手百度搜索不到Google的相关内容可以理解,但是竟然在百度上搜索不到的东西,在Google搜索的到,问题不是这个,问题是在Google上搜索到的答案往往是百度知道上面的, 试问之(百度):自家的东西连自家都搜索不到,反而到作为竞争对手的Google上搜索出来的,首先不说Google的搜索技术问题,我想说的是Google是何等胸襟,而百度并不是技术不行,是太注重商业化了,因而在百度里面的排名和搜索结果也往往受到影响.

  6. 是啊。
    有同感。
    我运营的大南宁人才网,在百度排名就很不稳定。
    但GOOGLE的排名就相对一直很稳定了。

    百度偏向于商业。

    不过从另一角度又可以很好的理解。
    GOOGLE主打国外市场。
    在中文市场。毕竟大部分是百度。

  7. 对市场的认识不同,对盈利模式的见解不同,可能造成对超链接理解不同。
    仔细分析,到今天虽说baidu 和gg都是搜索引擎,但是他们的发展方向是截然不同的。百度更依靠于引擎赚钱,gg更依靠于依附引擎赚钱。这是本质性的区别。

  8. 李彦宏其实还是很强的,对吧?
    虽然百度的一些做法一直让人非常的鄙视。
    不过他的超链接分析技术,不就是现在最重要的锚链接吗?也许只是个雏形。
    据说他在05年的时候说过:5年后谷歌会完全退出大陆市场,百度笑傲群雄。
    真没想到他竟然说的对了!
    MARK一下,通读zac的博客做个书签在此。

  9. 在上学的时候也接触过超链分析技术这个名词,一直以来感觉只是个链接而已,现在看来里面的东西真不简单,全是最核心的东西。

  10. 曾经的谷歌你敢不承认抄袭?都是李彦宏指点过的,不然哪来的灵感

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。