搜索引擎-03-搜索引擎原理

这篇具有很好参考价值的文章主要介绍了搜索引擎-03-搜索引擎原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何?

全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(粉色部分):

(1)spider 爬虫系统;

(2)search+index: 建立索引与查询索引系统,这个系统又主要分为两部分:

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

(3)rank 打分排序系统;

核心数据主要分为两部分(紫色部分):

(1)web 网页库;

(2)index 索引数据;

全网搜索引擎的业务特点决定了,这是一个“写入”和“检索”分离的系统

如何写入

系统组成:由spider与search+index;两个系统完成。

输入:站长们生成的互联网网页。

输出:正排倒排索引数据。

流程:如架构图中的1,2,3,4:

(1)spider把互联网网页抓过来;

(2)spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像);

(3)build_index从网页库中读取数据,完成分词;

(4)build_index生成倒排索引;

如何建立索引

系统组成:由search+index;与rank两个系统完成。

输入:用户的搜索词。

输出:排好序的第一页检索结果。

流程:如架构图中的a,b,c,d:

(a)search_index获得用户的搜索词,完成分词;

(b)search_index查询倒排索引,获得“字符匹配”网页,这是初筛的结果;

(c)rank对初筛的结果进行打分排序;

(d)rank对排序后的第一页结果返回;文章来源地址https://www.toymoban.com/news/detail-844132.html

到了这里,关于搜索引擎-03-搜索引擎原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch 搜索引擎原理与实践

    作者:禅与计算机程序设计艺术 Elasticsearch 是开源分布式搜索引擎,提供搜素、分析、数据可视化等功能。它是一个基于 Lucene 的全文搜索服务器,能够把结构化或非结构化的数据经过索引生成一个索引库,使其可以被搜索到。 在现代 Web 应用中,搜索功能已经成为不可或缺

    2024年02月09日
    浏览(42)
  • SEO之搜索引擎的工作原理(三)

    初创企业需要建站的朋友看这篇文章,谢谢支持: 我给不会敲代码又想搭建网站的人建议 (接上一篇。。。) 经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入后,排名程序调用索引库数据,

    2024年04月17日
    浏览(38)
  • SEO之搜索引擎的工作原理(二)

    初创企业需要建站的朋友看这篇文章,谢谢支持: 我给不会敲代码又想搭建网站的人建议 (接上一篇。。。。。) 在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。 搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎

    2024年04月17日
    浏览(48)
  • Elasticsearch 分布式全文搜索引擎原理解析

    作者:禅与计算机程序设计艺术 Elasticsearch是一个开源的分布式全文搜索引擎,它可以近实时地存储、检索数据。本系列文章将从以下几个方面对Elasticsearch进行深入分析: Elasticsearch的主要组成部分 索引、类型和映射(Mapping) 搜索请求处理流程 查询缓存机制 Elasticsearch集群

    2024年02月05日
    浏览(49)
  • 正排索引 vs 倒排索引 - 搜索引擎具体原理

    正排索引是一种索引机制,它将文档或数据记录按照某种特定的顺序进行组织,通常是按照文档ID或者其他唯一的标识符进行排序。这种索引的核心在于,它允许我们通过已知的文档标识符快速访问到对应的文档内容。 在正排索引中,索引的结构通常是这样的: 索引的键是文

    2024年04月14日
    浏览(48)
  • 搜索引擎(大数据检索)论述[elasticsearch原理相关]

    首先需要大致知道搜索引擎有大致几类:1.全文搜索引擎 2.垂直搜索引擎 3.类目搜索引擎等。 1.全文搜索引擎:是全文本覆盖的,百度,google等都是全文本搜索,就是我搜一个词项“方圆”,那么这个词项可以是数字平方的概念,可以是一个人名,可以是一首歌等,所有的相

    2023年04月08日
    浏览(52)
  • 32 | 和搜索引擎的对话:SEO的原理和基础

    今天,我们来聊一聊搜索引擎和 SEO(Search Engine Optimization)。当网站发布上线以后,我们希望通过适当的优化调整,让它可以被搜索引擎更好地“理解”,在用户使用搜索引擎搜索的时候,网站的内容可以更恰当地暴露给用户。 作为程序员,和更擅长于与内容打交道的运营相

    2024年03月16日
    浏览(41)
  • 搜索引擎蜘蛛池的原理是什么,蜘蛛池搭建教程?

    💂 个人网站:【海拥】【游戏大全】【神级源码资源网】 🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】 💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 搜索引擎蜘蛛池是搜索引擎用来收集和索引网页内容的重要组成部分。本文将介绍搜索

    2024年02月11日
    浏览(58)
  • 【SEO 初学者指南】搜索引擎的工作原理:抓取、索引、排名

    了解搜索引擎的工作原理,从抓取和索引到排名和惩罚,以及优化和故障排除技巧。 搜索引擎是如何工作的? 搜索引擎通过抓取、索引和排名互联网内容来工作。首先,爬虫通过网络爬虫发现在线内容。然后,索引分析内容并将其存储在搜索引擎的索引中。最后,排名会根

    2024年03月15日
    浏览(67)
  • 谷歌pagerank算法(谷歌搜索引擎的pagerank算法的原理)

    【e6zzseo】专注seo搜索引擎优化技术8年以上,更新关于seo优化技术、seo推广、分享SEO优化工具、最新前沿seo套路技术研究开发。 谷歌是目前世界上最受欢迎的搜索引擎,无论是对于普通的冲浪者还是站长。它每天处理多达1.5亿次搜索请求,几乎占全球所有搜索的三分之一。由

    2023年04月16日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包