倒排索引的数据结构：Term index、Term Dictionary、Posting List-Toy模板网

这篇具有很好参考价值的文章主要介绍了倒排索引的数据结构：Term index、Term Dictionary、Posting List。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

2、倒排索引的数据结构

倒排索引其实包含了三种数据，分别是

倒排表（Posting List）
词项字典（Term Dictionary）
词项索引（Term Index）

这几种文件分别存储了不同的数据

其中倒排表包含某个词项的所有id的数据存储了在.doc文件中；

词项字典包含了index field的所有经过normalization token filters处理之后的词项数据，最终存储在.tim文件中。

所谓normalization其实是一个如去重、时态统一、大小写统一、近义词处理等类似的相关操作；词项索引就是为了加速词项字典检索的一种数据结构，落地文件为.tip。.tip文件和.tim文件的数据结构如下图所示：
倒排索引的数据结构：Term index、Term Dictionary、Posting List
Lucene中通过FST Index信息来读取当前域在索引文件.tim的具体信息，而同一个索引所有域的FSTIndex都被连续的写入在同一个.tip文件中，所以就需要indexStartFP 来索引 FSTIndex。

FSTIndex底层是一个字节数组，存储了每个Block在.tim中的起始位置，如上图所示，Block f和Block g对应的Block分别被保存在了.tim文件的Block 0和Block 1的位置。

每个Block内部又保存了Block Header、Suffix和Stats信息以及Metadatas信息，其中Block Header中存储了当前Block中的Pending Block和Pending Term的总计数，也就是EntryCount，Sufix则是保存了当前Block后缀的个数以及分别是什么，如block b的SufixLength=2，为f、g。Stats则保存了当前Term的词频和文档频率，参见org.apache.lucene.index.TermsEnum.TermStats。

其中docFreq为包含当前Term的doc数量，totalTermFreq为当前term在所有文档中的当前字段中出现的总次数，但实际保存的是和docFreq的差值，这也是遵循通用最小化算法的法则表现。需要注意的是，两者均是指在同一个域内的计数。Metadatas这里不着重介绍。

关于倒排表的文件结构，我们仅需知道其内部存储了包含Term的id数组、词频、postion、payload、offset等信息，需要重点注意的是ES内部采用怎样的压缩算法。这一点在下一节内容展开来讲。文章来源地址https://www.toymoban.com/news/detail-415866.html

到了这里，关于倒排索引的数据结构：Term index、Term Dictionary、Posting List的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！