POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 列式数据是如何存储与处理的

这篇具有很好参考价值的文章主要介绍了POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 列式数据是如何存储与处理的。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

POLARDB IMCI 白皮书  云原生HTAP 数据库系统  一  列式数据是如何存储与处理的,云原生,数据库

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共950人左右 1 + 2 + 3)新人会进入3群

第四部分将深入介绍列索引存储,这是PolarDB-IMCI处理分析查询的关键部分。PolarDB-IMCI支持高度调优的面向事务处理的云存储的基于行的存储引擎[14, 28]。然而,基于行的数据格式因其无法有效地访问分析查询而闻名。受领先的工业级数据库(例如Oracle [30]、SQL Server [32])的启发,PolarDB-IMCI通过内存中的列索引实现了双重数据格式,以增强OLAP功能。

POLARDB IMCI 白皮书  云原生HTAP 数据库系统  一  列式数据是如何存储与处理的,云原生,数据库

如图4所示,PolarDB-IMCI中的列索引作为现有行存储的补充存储。在PolarDB-IMCI中,表的列可以选择地参与列索引。PolarDB-IMCI将表的所有行分为多个行组,并进行追加式写入以提高写入性能。在行组中,数据的每一列都与一些统计元数据一起组织成数据包。为了提供快照隔离,每个行组都包含一个插入版本ID(VID)映射和一个删除版本ID映射来控制并发事务处理的可见性。由于行组是追加式的,因此删除操作需要显式提供给定主键的行ID以设置该行的删除版本。为此,PolarDB-IMCI实现了一个行ID定位器(即两层LSM树)来将主键映射到列索引中行的物理位置。

数据包布局。首先,将关系表分成多个行组,行组的大小可配置(即每个行组64K行),而剩余的行组则形成部分行组(例如,图4中的行组N)。为了实现快速数据摄取,行组是追加式的(§4.2)。也就是说,全尺寸的行组是不变的,而部分行组将以追加式方式完成。在行组内属于同一列的数据以压缩格式组织成数据包,以降低空间消耗。请注意,PolarDB-IMCI不会压缩部分数据包,因为它们会持续更新。

元数据。为了避免在查询执行过程中进行不必要的数据访问,PolarDB-IMCI为每个数据包维护一个包元数据。包元数据跟踪每个包的最小和最大值,以及采样直方图,这有益于列扫描。例如,当查询语句指定WHERE子句谓词时,可以使用所引用列的包元数据来检查是否可以跳过对该包的扫描。

为了更好地理解在数据包上进行DML操作的流程,现在我们描述如何在列索引数据结构上进行DML操作。

• 插入:将行插入列索引包括以下四个步骤。首先,列索引从其部分Packs中分配一个空的RID。其次,定位器通过主键更新插入的行的新RID(即在LSM树中添加新记录)。然后,列索引将行数据写入空槽中(例如,图4中行组N内的数据包)。最后,插入VID记录已插入数据的事务提交序列号(即时间戳)。由于插入VID映射维护每个插入数据的插入版本,因此也遵循只追加的写入模式。

• 删除:删除操作通过主键(PK)通过RID定位器检索行的RID,然后使用其事务提交序列号设置相应的删除VID。之后,从定位器中删除PK和RID之间的映射以确保数据一致性。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 紧缩:删除操作可以在数据包中设置删除VID,为该数据包打洞。随着无效行数的增加,扫描性能和空间效率会下降。PolarDB-IMCI定期检测和重新排列底部的数据包,以保持列索引的无效行的低水位。例如,稀疏数据包,有效行少于一半,被选为下溢。然后,后台线程发出紧缩事务,每个迁移的有效行进行大量的更新操作,将选定数据包的所有有效行重新附加到部分包中。请注意,列索引的更新操作是原地的,因此在紧缩期间或之后,旧行仍然可以通过前台操作进行访问,从而实现非阻塞更新。在没有活动事务访问它们时,紧缩后的数据包将被永久删除。

POLARDB IMCI 白皮书  云原生HTAP 数据库系统  一  列式数据是如何存储与处理的,云原生,数据库文章来源地址https://www.toymoban.com/news/detail-549868.html

到了这里,关于POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 列式数据是如何存储与处理的的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【阿里云·云原生架构·白皮书】保姆级解读 一、 云原生架构定义

    🔎这里是【阿里云·云原生架构·白皮书】,关注我学习云原生不迷路 👍如果对你有帮助,给博主一个免费的点赞以示鼓励 欢迎各位🔎点赞👍评论收藏⭐️ 【阿里云·云原生架构·白皮书】 主要更新一些在学习云原生架构时的一些总结,以及对白皮书内容的解读。 主要介

    2024年02月09日
    浏览(25)
  • 全景描绘云原生技术图谱,首个《云原生应用引擎技术发展白皮书》发布

    5月1 2 日,由 神州数码主办、北京经开区国家信创园 、 中关村云计算产业联盟协办 的2 023 通明湖论坛-云原生分论坛在京召开 。论坛期间,神州数码联合北京通明湖信息技术应用创新中心、中国信通院和通明智云正式发布了《云原生应用引擎技术发展白皮书》(以下简称:

    2024年02月05日
    浏览(47)
  • 《金融数据保护治理白皮书》发布(137页)

    温馨提示:文末附完整PDF下载链接 导读   目前业界已出台数据保护方面的治理模型,但围绕金融数据保护治理的实践指导等尚不成熟,本课题围绕数据保护治理的金融实践、发展现状,探索和标准化相关能力要求,归纳总结相关建设范式,推进数据保护、治理在金融领域的

    2024年02月14日
    浏览(40)
  • 【中国金融机构 FRTB 合规的数据挑战 白皮书】

    来源: 毕马威,彭博 本报告将重点聚焦中国银行业在实施 FRTB 过程中面临的主要数据挑战,并探讨可行的解决方案,旨在帮助机构了解 FRTB 新规实施的要点与难点,充分评估现状与差距,寻找到适合自身特点的 FRTB 实施路径。本报告由来自全球领先的金融数据提供商彭博(

    2024年02月03日
    浏览(33)
  • 中国信通院&腾讯安全发布《2023数据安全治理与实践白皮书》

    导读 nbsp; 腾讯科技(深圳)有限公司和中国信息通信研究院云计算与大数据研究所共同编制了本报告。本报告提出了覆盖组织保障、管理流程、技术体系的以风险为核心的数据安全治理体系,并选取了云场景、互娱、社交等场景,介绍相应场景下数据安全治理实践路线及主要亮

    2024年02月14日
    浏览(32)
  • 中国信通院联合腾讯安全发布《数据安全治理与实践白皮书》

    6月26日,由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”在北京启幕,大会发布了多项中国信息通信研究院及相关机构在数智化领域最新研究和实践成果。 腾讯云安全总经理李滨出席了数据安全高质量发展论坛,分享了腾讯云自身数据安

    2024年02月12日
    浏览(28)
  • 曙光数创、曙光信息共同编写《绿色节能液冷数据中心》白皮书

    近日,《绿色节能液冷数据中心白皮书(2023)》(简称白皮书),经过近10位指导编委、20余位编委、历时近半年时间编制,正式通过专家评审会议。白皮书旨在为建立标准化液冷解决方案提供技术参考,促进产业链互通协作。 白皮书由国家互联网数据中心产业技术创新战略

    2023年04月20日
    浏览(32)
  • 【大数据&AI人工智能】企业级大数据产品体系技术架构白皮书

    目录 以 One Data 为内核,“快”、“准”、“全”、“统”、“通”的智能大数据体系  DataWorks 产品架构

    2023年04月08日
    浏览(73)
  • EIDchain汇金公链白皮书一种基于区块链技术的身份隐私和数据隐私保

    目   录   表 引   言   3 一 、       背景   4 二、       区块链隐 私泄露风险高   5 三、          加密交易和 范围证明   6 1.       加密交易 6 2.       范围证明 7 四、       区块链隐私和安全   8 1.       区块链隐私和安全 8 2.        余额隐藏机制

    2024年02月08日
    浏览(41)
  • 海峡链技术白皮书-整体篇

    “引言:海峡链技术白皮书分为《海峡链技术白皮书-整体篇》、《海峡链技术白皮书-开放共识链篇》、《海峡链技术白皮书-开放许可链篇》和《海峡链技术白皮书-IPFS篇》四个章节。《海峡链技术白皮书-整体篇》对海峡链的设计思路、技术框架、产品生态等方面进行了整体

    2023年04月12日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包