谈谈你对倒排索引的理解

这篇具有很好参考价值的文章主要介绍了谈谈你对倒排索引的理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

谈谈你对倒排索引的理解

在聊倒排索引之前,我们需要先了解一下‘索引’概念。

什么是索引呢?

索引是为了加速对表中数据行的检索而创建的一种分散的存储结构

通俗的来讲索引好比就是新华字段中拼音的首字母还有偏旁,根据拼音的首字母和偏旁能很快的查找到你需要的内容。

索引的作用是什么呢?

  • 保证数据的准确性

    唯一的索引值对应着唯一的数据

  • 加快检索速度

    索引可以极大的加快检索速度

  • 提高系统性能

    索引可以有效提高系统的性能

倒排索引

elasticSearach 为啥要用倒排索引 而不是mysql 中 **B+**树呢?

先看看B+树的结构
mysql 倒排索引,elasticSearch,elasticsearch

先简单讲一下 B+树

B+树的特征
  • 每一个节点是一个dataPage,在mysql中每个dataPage的大小为16K
  • 就假如ID为28这个节点来说,单个数据量越大,单个节点里面放的数据量就越少
  • 一般都会使用ID作为索引存储,ID字段比较短适合存储。不适用字段多长的字段
  • ID的数值越大,树越深。IO越大B+树默认支持千万级别的数据量。

综合上述特征b+树不适用做上亿级别的存储数据结构,就mysql而言左模糊查询会导致索引失效,而去全文去检索。IO压力增大,得不偿失。

下面聊一下倒排索引

倒排索引的组成:

  1. term index:词典索引
  2. term dictionary:词典词项
  3. posting list:倒排表(采用两种的压缩算法 1.FOR(稠密数组) 2.roaring bitmaps(稀疏数组))

举个简单的例子来讲吧

id title desc
1 Welcome to Shanxi! 欢迎来到陕西
2 I like Xi 'an very much 我很喜欢西安
3 I like Xi 'an noodles very much 我很喜欢吃西安的面

以title这一列来讲es根据默认的分词器(以及normzation)分为为以下的此项

Welcome to Shan xi an I like xi an very much noodles

term index term dictionary Posting List
welcome 1
to 1
shan 1
xi 1,2,3
an 2,3
i 2,3
like 2,3
noodles 3
very 2,3
much 2,3

简单来说正排索引就是根据元素查找文档,倒排索引失根据元素查找文档文章来源地址https://www.toymoban.com/news/detail-729202.html

到了这里,关于谈谈你对倒排索引的理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Elasticsearch专栏 01】深入探索:Elasticsearch的正向索引和倒排索引是什么

    首先,要明确的是,Elasticsearch本质上只使用倒排索引来实现高效的搜索和查询功能。正向索引虽然在某些数据库和搜索系统中被提及,但在Elasticsearch的上下文中并不是一个核心概念。下面我详细解释倒排索引,并简要提及正向索引以提供对比。 倒排索引是Elasticsearch中用于实

    2024年02月22日
    浏览(50)
  • Elasticsearch的倒排索引是什么?

    Elasticsearch是基于 Apache Lucene【lusen】的搜索引擎,支持Restful API风格【可以使用常见的HTTP请求来访问】,并且搜索速度很快,可以提供实时的搜索服务。 其实Elasticsearch的功能有很多,比如分布式存储、实时数据分析等很多方面。使用ES的好处有几点: 系统解耦。使用ES之后,

    2024年04月10日
    浏览(40)
  • 《面试1v1》ElasticSearch倒排索引

    🍅 作者简介:王哥,CSDN2022博客总榜Top100🏆、博客专家💪 🍅 技术交流:定期更新Java硬核干货,不定期送书活动 🍅 王哥多年工作总结:Java学习路线总结, 点击 突击面试 🍅 数十万人的面试选择: 面试说人话系列《面试1v1》 我是 javapub,一名 Markdown 程序员从👨‍💻,

    2024年02月13日
    浏览(42)
  • ElasticSearch:全文检索及倒排索引原理

    首先介绍一下结构化与非结构化数据: 结构化数据将数据具有的特征事先以结构化的形式定义好,数据有固定的格式或有限的长度。典型的结构化数据就是传统关系型数据库的表结构,数据特征直接体现在表结构的字段上,所以根据某一特征做数据检索很直接,速度也比较快

    2024年02月14日
    浏览(43)
  • 【Elasticsearch专栏 02】深入探索:Elasticsearch为什么使用倒排索引而不是正排索引

    Elasticsearch选择使用倒排索引而不是正排索引,主要是基于倒排索引在处理全文搜索和大规模数据集时的优势。下面将详细解释为什么Elasticsearch更倾向于使用倒排索引,并提供一些简化的代码片段来说明这两种索引结构的基本差异。 正排索引是一种将文档映射到其包含的单词

    2024年02月22日
    浏览(49)
  • Elasticsearch 如何做到快速检索 - 倒排索引的秘密

    这里我们就引出了一个概念,也是我们今天的要剖析的重点 - 倒排索引。也是 ES 的核心知识点。 如果你了解 ES 应该知道,ES 可以说是对 Lucene 的一个封装,里面关于倒排索引的实现就是通过 lucene 这个 jar 包提供的 API 实现的,所以下面讲的关于倒排索引的内容实际上都是

    2023年04月08日
    浏览(34)
  • 【Elasticsearch专栏 03】深入探索:Elasticsearch的倒排索引是如何提高搜索效率的?

    倒排索引之所以能够提高搜索效率,关键在于其独特的构建方式和数据结构设计。下面,我将对倒排索引的工作原理进行深层解读,并阐述其如何显著提高搜索效率。 分词与索引构建 首先,搜索引擎会对文档内容进行分词处理,将文本拆分成独立的单词或词组。然后,为每

    2024年02月22日
    浏览(39)
  • Elasticsearch中倒排索引、分词器、DSL语法使用介绍

    🍓 简介:java系列技术分享(👉持续更新中…🔥) 🍓 初衷:一起学习、一起进步、坚持不懈 🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏 🍓 希望这篇文章对你有所帮助,欢迎点赞 👍 收藏 ⭐留言 📝 🍓 更多文章请点击 简介及安装请查看这篇 :Elasticsea

    2024年02月11日
    浏览(49)
  • 简述Elasticsearch(ES)是什么 全文搜索概念 (倒排索引 管理文档)

    今天 我们来说说 NoSql 中的 Elasticsearch 大家基本都叫它 ES 官方介绍 它是一个分布式全文搜索引擎 分布式是一个系统架构的概念 而 全文搜索引擎 全文搜索 可以说基本大家天天都在接触 就比如 我们京东购物 想买什么东西 在全文输入框中搜索 它就会在所有物品中 帮你找出需

    2024年01月25日
    浏览(46)
  • 深入了解Elasticsearch搜索引擎篇:倒排索引、架构设计与优化策略

    倒排索引是一种用于快速检索的数据结构,常用于搜索引擎和数据库中。与传统的正排索引不同,倒排索引是根据来建立索引,而不是根据文档ID。 倒排索引的建立过程如下:首先,将每个文档拆分成一系列的或词项,然后建立一个词项到文档的映射。对每个关

    2024年02月12日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包