读改变未来的九大算法笔记07_搜索引擎

这篇具有很好参考价值的文章主要介绍了读改变未来的九大算法笔记07_搜索引擎。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

读改变未来的九大算法笔记07_搜索引擎文章来源地址https://www.toymoban.com/news/detail-476477.html

1. 车库轶事

1.1. 1939年

1.1.1. 戴夫·休利特(Dave Hewlett)

1.1.1.1. 惠普(Hewlett-Packard)

1.2. 1976年

1.2.1. 蒂夫·乔布斯(Steve Jobs)和史蒂夫·沃兹尼亚克(Steve Wozniak)

1.2.1.1. 从一间卧室开始的,空间很快就不够用了,于是他们转移到了车库

1.3. 1998年

1.3.1. 佩奇和布林

1.3.1.1. 谷歌

1.3.1.1.1. 门洛帕克车库

2. 互联网搜索历史

2.1. 1945年

2.1.1. 超链接

2.1.1.1. 美国工程师范内瓦·布什(Vannevar Bush)

2.1.1.2. 论文《诚若所思》(As We May Think)

2.1.1.3. 一台被称作麦麦克斯(memex)的机器

2.1.1.3.1. 允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”
2.1.1.3.2. 一种早期的超链接

2.2. 1994年

2.2.1. Infoseek

2.2.2. Lycos

2.3. 1995年

2.3.1. AltaVista

2.4. 1999年

2.4.1. AltaVista递交的美国专利文件《索引的限制搜索》(“Constrained searching of an index”)中描述了元词把戏

3. 两大主要任务

3.1. 匹配(matching)

3.2. 排名(ranking)

4. 匹配算法

4.1. AltaVista:互联网级别的第一种匹配算法

4.1.1. 20世纪90年代中期,AltaVista是搜索引擎的王者

4.1.2. 有史以来第一次,有一个搜索引擎能完全索引互联网上每个页面的全部文本

4.2. 有效匹配只是高效搜索引擎的一大挑战

4.3. 索引

4.3.1. 是所有搜索引擎背后最基础的思想

4.3.2. 是计算机科学中最古老的有用思想

4.3.3. 互联网搜索引擎的索引和一本书的索引有着相同的工作原理

4.3.3.1. “书页”现在成了万维网上的网页

4.3.3.2. 搜索引擎则给互联网上的每个网页分配了一个不同的页码

4.3.4. 索引不仅应该存储页码,还要存储信息在页面内的位置

5. 排名和邻度

5.1. 查询词彼此相邻的网页比那些查询词相距很远的网页相关度更高

5.2. 搜索引擎在不断地使用和邻度有关的信息,以提高搜索排名

5.3. “NEAR”(邻近)关键词

5.3.1. NEAR查询

5.4. 搜索引擎的生死由其排名的质量决定,而通过利用网页结构,排名质量能够得到大幅提升

6. 元词把戏

6.1. Metaword Trick

6.2. 创建一份索引时,囊括所有元词是件很简单的事

6.3. 标题查询和其他取决于网页结构的“结构查询”类似于NEAR查询

7. 排名算法

7.1. PageRank

7.1.1. 一种对网页排名的算法

7.1.2. 主要发明者拉里·佩奇的排名算法

7.1.3. 学术会议论文《解析大规模超文本网络搜索引擎》(The Anatomy of a Large-Scale Hypertextual Web Search Engine)

7.1.4. 核心思想

7.1.4.1. 权威性网页通过超链接向其他网页传输权重

7.2. 基于链接的排名算法(Link-based Ranking Algorithms)

7.3. 超链接

7.3.1. 网页上的一个短语,当你点击它时,你将被带到另一个网页

7.3.2. 一个网页的链入链接数可能成为该网页“有用性”或“权威性”的指标

7.3.3. 人们可以滥用超链接把戏,人为地提高自己网页的排名

7.3.3.1. 搜索引擎称这种滥用为网络垃圾Web Spam

7.3.4. 一个有许多链入链接的网页应该有高排名

7.4. 权重

7.4.1. 来自高权重网页的链接排名要比来自低权重网页链接的排名高

7.4.2. 所有网页的初始权重值(Authority Score)都是1

7.4.2.1. 如果一个网页有链入链接,在计算该网页权重时就要加入指向其网页的权重

7.4.2.2. 如果X和Y网页链接Z网页,那么Z网页的权重就是X网页和Y网页权重相加的值

7.4.3. 和来自低权重网页的链入链接相比,一个来自高权重网页的链入链接应该更能证明一个网页的排名

7.5. 随机访问者

7.5.1. 超链接很有可能形成“循环”(cycle)

7.5.1.1. 随机访问者解决这个“鸡生蛋还是蛋生鸡”的问题

7.5.1.2. 不管超链接有没有形成循环,随机访问者把戏都能完美地运作

7.5.2. 关键点

7.5.2.1. 每次访问一个网页时,都有一个固定的重新访问概率(大概是15%),让访问者不从已有的超链接中挑选一个并点击

7.5.2.2. 网页的访问者权重值(Surfer Authority Score)

7.5.2.2.1. 一名随机访问者访问该网页的时间比例

7.5.3. 一个有许多链入链接的网页被访问的概率较大

7.5.4. 和一个来自不知名网页的链接相比,访问者更有可能继续点击一个来自知名网页的链入链接

7.5.5. 每个网页链入链接的质量和数量都会被纳入考虑范围

7.6. 搜索引擎并非通过模拟随机访问者来计算PageRank值:它们使用像随机访问者模拟一样给出相同答案的数学技巧,但计算成本要低很多

7.6.1. 商业搜索引擎中用来判定排名的算法要比PageRank这类基于链接的排名算法多得多

到了这里,关于读改变未来的九大算法笔记07_搜索引擎的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 读改变未来的九大算法笔记08_并非万能的算法

    2.1.1.1. Alonzo Church 2.1.1.2. 在计算理论上的突破性工作至今仍是计算机科学许多方面的基础 2.1.1.3. 单独发现了不可判定问题的存在 2.1.1.3.1. 比图灵早几个月发表了自己的成果 2.1.1.3.2. 邱奇的公式更为抽象,且并未详尽地提及由机器执行的计算 5.3.1.1. 如果输入会崩溃,那么

    2024年02月08日
    浏览(27)
  • 读改变未来的九大算法笔记02_数据库

      2.1.1. 当一个程序崩溃时,它会丢掉所有正在处理的东西 2.1.2. 只有安放在计算机文件系统中的信息会得到保存 2.1.3. 崩溃相当宽泛:包括任何可能导致计算机停止运行进而损失数据的事 2.1.3.1. 可能的事件包括断电、硬盘出错、其他硬件出错,以及操作系统或应用程序中的

    2024年02月08日
    浏览(33)
  • 读改变未来的九大算法笔记09_指尖的精灵

    5.1.2.1. 编译器 5.1.2.2. 程序验证技术 5.2.2.1. 排序算法(快速排序等) 5.2.2.2. 图形算法(迪杰斯特拉最短路径算法等) 5.2.2.3. 数据结构(哈希表等) 5.3.2.1. CPU(中央处理器) 5.3.2.2. 监视器 5.3.2.3. 网络

    2024年02月08日
    浏览(27)
  • 读改变未来的九大算法笔记05_数字签名

    3.3.1.1. 钟大小为11的乘法表 3.5.2.1. 欧几里得算法也能根据钥匙值计算出挂锁值,而这一算法要比暴力破解高效得多。这也是乘法方法被认为不安全的原因 4.2.1.1. 钟大小为22时n的三次方和七次方的值 4.5.1.1. 发明一种高效的分解因子算法只会破坏类RSA机制

    2024年02月08日
    浏览(36)
  • ChatGPT热炒之前 搜索引擎SEO算法已经悄然改变

    2022年4月起,某度算法有了新的调整,这对于靠SEO获得流量的公司简直可以说是灭顶之灾。原本SEO从业者还指望跟之前一样,等算法调整稳定后,网站的自然排名还会再回来,但等到了10月份,仍然没有回暖的迹象,大家这才不得不面对现实,总结这次算法调整后的特点。 特

    2023年04月23日
    浏览(42)
  • day07 Elasticsearch搜索引擎3

    聚合(aggregations)可以让我们极其方便的实现对文档数据的统计、分析、运算。例如: 什么品牌的手机最受欢迎? 这些手机的平均价格、最高价格、最低价格? 这些手机每月的销售情况如何? 实现这些统计功能比数据库的sql要方便得多,而且查询速度非常快,可以实现实时

    2024年02月01日
    浏览(23)
  • 数据结构与算法之美学习笔记:42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?

    本节课程思维导图: 利用 Trie 树,可以实现搜索引擎的提示功能,这样可以节省用户输入搜索的时间。实际上,搜索引擎在用户体验方面的优化还有很多,比如你可能经常会用的拼写纠错功能。 当你在搜索框中,一不小心输错单词时,搜索引擎会非常智能地检

    2024年02月03日
    浏览(43)
  • 深度学习图像搜索算法-图像搜索引擎

    深度学习图像搜索算法-图像搜索引擎 文章目录 ✍🏻作者简介: 机器学习,深度学习,卷积神经网络处理,图像处理 🚀B站项目实战:https://space.bilibili.com/364224477 😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 🤵‍♂代码获取:@个人主页 给定一个

    2024年02月03日
    浏览(51)
  • 搜索引擎 笔记

    科技行业一直有个原则, 即人们不会愿意改变自己的使用习惯。Ramaswamy 在采访中坦言, “我们面临的最大障碍之一, 确实就是扭转用户的固有习惯。人们忘记了谷歌的成功不仅仅是开发出了更好的产品。为了实现目标, 我们必须做出一系列精准的分发决策。” 据报道, 谷歌每年

    2024年02月12日
    浏览(22)
  • 算法毕业设计 深度学习图像搜索算法-图像搜索引擎(源码分享)

    今天学长向大家分享一个毕业设计项目 毕业设计 深度学习图像搜索算法-图像搜索引擎(源码分享) 项目运行效果: 毕业设计 深度学习图像搜索算法-图像搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 图像检索:是从一堆图片中找到与待匹配的图像相似的图片,就是

    2024年02月03日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包