算法--PageRank

这篇具有很好参考价值的文章主要介绍了算法--PageRank。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

概念

算法--PageRank

PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。

GOOGLE PageRank并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:

  1. Hilltop 算法
  2. ExpertRank
  3. HITS
  4. TrustRank

思考超链接在互联网中的作用

入链 ====投票

PageRank让链接来“投票“,到一个页面的超链接相当于对该页投一票。

入链数量

如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

入链质量

指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

案例分析 pagerank  PR值

算法--PageRank

站在A的角度

需要将自己的PR值分给B,D

站在B的角度

收到来自A,C,D的PR值

算法--PageRank

 

迭代计算使PR值收敛于稳定值

算法--PageRank

 

算法实现

初始值

             Google的每个页面设置相同的PR值

             pagerank算法给每个页面的PR初始值为1。

迭代计算(收敛)

    Google不断的重复计算每个页面的PageRank。那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。

在具体企业应用中怎么样确定收敛标准?

  1. 每个页面的PR值和上一次计算的PR相等
  2. 设定一个差值指标(0.0001)。当所有页面和上一次计算的PR差值平均小于该标准时,则收敛。

PRa - PRa' = |Δ|

  1. 设定一个百分比(99%),当99%的页面和上一次计算的PR相等
算法修正
站在互联网的角度:

        只出,不入:PR会为0

        只入,不出:PR会很高

        直接访问网页

修正PageRank计算公式

增加阻尼系数

在简单公式的基础上增加了阻尼系数(damping factor)d,一般取值d=0.85。
完整PageRank计算公式

算法--PageRank

        d:阻尼系数

        M(i):指向i的页面集合

        L(j):页面的出链数

        PR(pj):j页面的PR值

        n:所有页面数

数据

A       B       D

B       C

C       A       B

D      B       C

计算ABCD的PR值

B 1/2

D 1/2

A       B       D

算法--PageRank

分组:所有指向第i个页面的页面的PR值之和。

将所有指向第i个页面的页面分为一组,reduce中迭代计算。

PR初始值是1

L的值

<偏移量,    A        B       D>

A->B

A->D

PRΔB=1/2

PRΔD=1/2

A       B       D

B       C

PRΔC=1

C       A       B

PRΔB=1/2

PRΔA=1/2

D      B       C

PRΔB=1/2

PRΔC=1/2

REDUCE:

PRΔB=1/2

PRΔB=1/2

PRΔB=1/2

PRΔD=1/2

PRΔA=1/2

<A,1/2>

<A,B\tD>

<A,1/2\tB\tD>

PRΔC=1/2

PRΔC=1

<PRA,1/2>

<PRB,3/2>

<PRC,3/2>

<PRD,1/2>

A       1/2   B       D

B       3/2   C

C       3/2   A       B

D      1/2   B       C

输出结果包含:指向关系和PR值

A       1/2   B       D

<B,1/4>

<D,1/4>

<A,1/2      B       D>

解题思路

**MR原语不被破坏

PR计算是一个迭代的过程,首先考虑一次计算

思考:

页面包含超链接

每次迭代将pr值除以链接数后得到的值传递给所链接的页面

so:每次迭代都要包含页面链接关系和该页面的pr值

mr:相同的key为一组的特征

map:

1,读懂数据:第一次附加初始pr值

2,映射k:v

1,传递页面链接关系,key为该页面,value为页面链接关系

2,计算链接的pr值,key为所链接的页面,value为pr值

reduce:

*,按页面分组

1,两类value分别处理

2,最终合并为一条数据输出:key为页面&新的pr值,value为链接关系文章来源地址https://www.toymoban.com/news/detail-499873.html

到了这里,关于算法--PageRank的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模--PageRank算法的Python实现

       P a g e R a n k PageRank P a g e R ank 算法是现代数据科学中用于图链接分析的经典方法,最初由 L a r r y Larry L a rry P a g e Page P a g e 和 S e r g e y Sergey S er g ey B r i n Brin B r in 在1996年提出。两位斯坦福大学研究生认为互联网上的链接结构能够反映页面的重要性,与当时基于

    2024年01月23日
    浏览(38)
  • 【经典PageRank 】02/2 算法和线性代数

    系列前文:

    2024年02月08日
    浏览(39)
  • 【NLP】PageRank、TextRank算法的原理解析

            PageRank是经典的网页热度评分算法,在自然语言的热词提取也有同样的意义(TextRank);本文详细叙述该算法的原理,配合部分代码演示其原理。                 PageRank (PR) 是 Google 搜索使用的一种算法,用于在其搜索引擎结果中对网页进行排名。1996 年由P

    2024年02月10日
    浏览(25)
  • PageRank 算法在Hadoop和Spark上的实现

            PageRank 网页排名 的算法,曾是 Google 关键核心技术。用于衡量 特定网页 相对于搜索引擎索引中的 其他网页而言的重要程度 。通过对 PageRank 的编程在 Hadoop 和 Spark 上的实现 ,熟练掌握 MapReduce 程序与 Spark 程序 在集群上的提交与执行过程,加深对 MapReduce 与 Spar

    2024年02月04日
    浏览(24)
  • 【复杂网络建模】——Python可视化重要节点识别(PageRank算法)

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、复杂网络建模 二、建模的算法

    2024年02月06日
    浏览(47)
  • 揭秘网络影响力:Neo4j中的PageRank算法应用

    PageRank是Google创始人Larry Page和Sergey Brin在1996年提出的一个链接分析算法,用于衡量网页的重要性。在图数据科学中,PageRank算法可以帮助我们识别网络中的关键节点。本文将详细介绍如何在Neo4j图数据库中实现PageRank算法,并探讨其在社交网络分析、搜索引擎优化和网络安全评

    2024年01月18日
    浏览(49)
  • 【复杂网络建模】——基于微博数据的影响力最大化算法(PageRank)

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、常见的影响力最大化算法

    2024年02月08日
    浏览(50)
  • Android 使用Google Map API;云计算概念IaaS,PaaS

    Infrastructure-as-a-Service(基础设施即服务) 第一层叫做IaaS,有时候也叫做Hardware-as-a-Service。 几年前如果你想在办公室或者公司的网站上运行一些企业应用,你需要去买服务器,或者别的高昂的硬件来控制本地应用,让你的业务运行起来。 但是现在有了IaaS,你可以将硬件外包

    2024年03月21日
    浏览(44)
  • 十分钟读完「斯坦福提出的革新AI训练的新算法DPO」论文

    引言:探索无监督语言模型的可控性挑战 在人工智能领域,无监督语言模型(Language Models, LMs)的发展已经达到了令人惊叹的水平,这些模型能够在广泛的数据集上进行预训练,学习到丰富的世界知识和一定的推理能力。然而,如何精确控制这些模型的行为,使其按照人类的

    2024年02月20日
    浏览(35)
  • 高效的空间索引算法——Geohash 和 Google S2

     在空间索引类问题中,一个最普遍而又最重要的问题是:给定你某个点的坐标,你如何能够在海量的数据点中找到他所在的区域以及最靠近他的点?,比方说客户在路上突然想吃饭了,那么就要根据他的位置查询最近的餐馆并做出推荐。  通常情况下,一提到查找类问题,

    2024年01月20日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包