【运维 Pro】时序场景实践与原理 - 1. 分布与分区

这篇具有很好参考价值的文章主要介绍了【运维 Pro】时序场景实践与原理 - 1. 分布与分区。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【运维 Pro】: 是由 YMatrix 售前和售后团队负责的栏目。除了介绍日常的数据库运维和使用知识,我们更希望能够通过介绍这些知识背后的原理,让大家和我们一起感知数据库的美妙。

摘要

有别于其它场景,时序场景中的数据、查询都有着更为明显的特征;也因此,YMatrix 可以针对这些特征进行深度优化,最终带来出色的性能表现。

然而在时序场景中使用 YMatrix 时,会发现不同的使用方式有时会带来明显的性能差异;究其原因,只有针对时序场景精心设计,才能最大的发挥 YMatrix 在时序场景的性能优势。

我们会从 YMatrix 在时序场景中的最佳实践出发,深入逻辑和原理,一起讨论我们做什么、如何做、为什么。

作者:徐福贵|YMatrix 售后工程师 & 王任远|YMatrix MXUI 研发工程师

01 准备知识

作为本系列的第一篇文章,我们先简单介绍一些准备知识。

什么是时序数据

简单来说,时序数据就是: 设备标识 + 时间戳 + 指标 * N 。

以一个传感器记录的温度数据作为简单的例子:

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

  1. 设备标识:1 或多个字段组成的设备唯一标识

  2. 时间戳:指标采集时刻的时间戳

  3. 指标:设备采集到的许多不同的指标值

关于时序场景和时序数据的更多介绍,可以阅读 YMatrix 官方文档。(参考:时序数据模型)

使用 MARS3 存储引擎创建分区表

通常的,在时序场景会使用分区表进行存储。相比较其他数据库,YMatrix 针对时序场景进行了全方位优化,拥有诸多优势。这里我们以最新的 MARS3 存储引擎为例(其他存储类型也可参考),初步介绍如何针对使用场景创建表,以及其背后的基础逻辑。

MARS3 是在 YMatrix 5.1 中发布的最新存储引擎,相比 MARS2, 提供了数据更新与删除功能,并支持增删列,及 MVCC 机制,在 AP 和 TP 场景下都有明显的性能提升。

对应上面的例子,我们可以这样创建表:

CREATE TABLE  ts_demo(     ts timestamp WITH time zone,     device_id varchar(20) ,    temperature float)USING mars3DISTRIBUTED BY (ts, device_id)  -- 分布键:ts + device_idORDER BY (ts,device_id)         -- MARS3 特有排序列PARTITION BY RANGE(ts)          -- 分区键: ts(                               -- 分区策略:每天一个分区 START ('2023-07-01') INCLUSIVE  END ('2023-07-10') EXCLUSIVE  EVERY (interval '1 day'),  DEFAULT PARTITION default_p) ;

复制代码

针对时序场景,在创建表时,除了数据对应的字段类型,我们还需要重点关注和理解两个基础的问题:

02 如何选择分布键

在 YMatrix 中,一张表的数据会根据分布键和分布算法分散在不同节点上。

当执行查询时,如果涉及的数据均匀的分布在所有计算节点上,那么负载就会平均分配到每个节点上,自然能在并行执行时更充分的利用硬件资源,达到最佳性能表现。

反之,如果查询涉及的数据分布不均,那么执行查询时,就会出现数据量大的节点负载大,数据量小的节点负载小的问题;负载分布不均就意味着一些节点的资源未能充分利用,最终性能表现就可能不达预期。

因此,我们选择表的分区键,基本原则是让查询时涉及的数据尽可能均匀分布至各个节点上,数据分布越均匀,查询性能就越好。

要达到这一目的,首先需要理解时序场景查询的特点。

通常来讲,时序场景查询的条件均包含 时间戳(和设备标识 )的限定条件,比如:

1. 某一时刻,所有设备的某个指标的均值 。

--- SQL 1:求某一个时刻("2023/07/01 13:50:00") 所有设备的温度的平均值SELECT AVG(temperature) FROM test_demo WHERE ts = "2023/07/01 13:50:00"

复制代码

2. 指定时间段内,所有设备的某个指标的最大最小值。

--- SQL 2:求指定设备(D0001) 的在指定时间区间( [2023/07/01 13:00 ~ 14:00) )的温度的平均值SELECT AVG(temperature) FROM test_demoWHERE device_id = "D0001"AND ts >= "2023/07/01 13:50:00" AND ts < "2023/07/01 14:00:00";

复制代码

设备标识 + 时间戳

针对这两个典型的时序场景查询,使用 设备标识 + 时间戳 作为分布键,是最佳方案,可以使查询时涉及的数据分布更均匀。

此时,数据分布的情况如下:

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

扫描命中的数据

下图描述了这两个查询在执行时,命中数据的分布情况。从图中我们看出,命中的数据是在 2 个计算节点上均匀分布的,此时查询性能最佳。

SQL 1

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

扫描命中的数据

SQL 2

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

扫描命中的数据

为什么不能只用时间戳?

如果只用时间戳,会导致所有设备在某个时间点采集的数据都落在一个节点上,那么查询时只有一个数据节点的资源能够被充分利用。

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

扫描命中的数据

为什么不能只用设备标识?

这样的话一个设备的数据都在同一个计算节点上,当查询该设备的历史数据时,又仅有一个节点的资源能够被充分利用。

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

为什么不能用指标列?

一个指标列通常在一定取值范围内波动,并会有大量重复、空值;当指标列作为分布键,就会有大量同值数据分布在同一个节点上,不仅不能做到查询时涉及的数据均匀分布,连存储时的均匀分布都做不到。

03 如何选择分区键

由于几乎所有时序场景的查询,都包含时间戳作为限定条件,所以将时间戳作为分区键,无论是在插入数据还是在执行查询时,都能保证直接找到对应的分区,因此,将时间戳作为分区键,是最为合理的。

04 如何设计分区策略

简单来说,分区策略就是设置多长时间为一个分区。

分区机制对查询的加速主要在于能够能够减少查询时扫描数据的数量:当查询条件命中表中的某个分区时,数据库仅会对命中分区中的数据进行扫描,因此,查询条件命中的分区越少,其中的存储的数据越少,最终所扫描的数据就越少,执行速度也就越高。

因此,在设计分区策略时,我们的目标是尽可能的让查询条件命中的分区更少。

以两个典型的查询为例,我们来估算不同分区策略带来的查询开销差异:

  1. 指定的某个日期(如 7 月 3 日)的所有设备的平均温度。

  2. 指定的某周(如 7 月 3 日 ~ 7 月 9 日)某个设备的温度最大值/最小值。

假定每天的数据量为 N 条,有两种策略:

  1. 按日分区:每天一个分区,每个分区含 N 条数据

  2. 按周分区:每周一个分区,每个分区含 7N 条数据

对于按日分区策略,查询时扫描的分区和对应的数据量为:

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

对于按周分区策略,查询时扫描的分区和对应的数据量为:

【运维 Pro】时序场景实践与原理 - 1. 分布与分区,运维,oracle,数据库,大数据,时序数据库

由此可见,对于给定的查询,相比按周分区,按天分区策略在查询时扫描的数据量要小的多,所以效率要更高;而如果查询 1 被更频繁执行的,业务查询的整体耗时差异会更大。

总之,分区策略需要根据具体查询来设计。比如,当小时粒度的查询更多,那么按小时进行分区就会是更为合理的策略。

冷热数据:实际生产环境中,距离当前时间较远数据(冷数据)更有可能被按照更长的周期进行查询(比如按月),而距离当前时间较近(热数据)则更有可能被按照较短间隔查询(比如按小时)。因此,冷数据适宜设置更长的分区间隔(按月),热数据设置更小的分区间隔(按小时)。在最新的 YMatrix 5.1 中提供了降级存储功能,能够实现数据的全自动冷热分级。

本文为 YMatrix 原创内容,未经允许不得转载。

欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库”文章来源地址https://www.toymoban.com/news/detail-702205.html

到了这里,关于【运维 Pro】时序场景实践与原理 - 1. 分布与分区的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PHP实践:分布式场景下的Session共享解决方案实现

    🏆作者简介,黑夜开发者,全栈领域新星创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于PHP专栏:PHP进阶实战教程。 🏆另有专栏PHP入门基础教程,希望各位大佬

    2024年02月13日
    浏览(37)
  • 云计算:从基础架构原理到最佳实践之——运维自动化和工具集成

    作者:禅与计算机程序设计艺术 随着互联网公司如雨后春笋般涌现,每天都有许多新的创业项目飞速出现。越来越多的人都希望能够快速地在新兴领域进行尝试,而云计算正好满足了这个需求。云计算可以帮助企业快速部署应用、扩展业务,减少IT资源的投入,并降低运营成

    2024年02月07日
    浏览(52)
  • 深入解析 JWT(JSON Web Tokens):原理、应用场景与安全实践

    JWT(JSON Web Tokens)是一种开放标准(RFC 7519),用于在各方之间安全地传输信息作为 JSON 对象。由于其小巧和自包含的特性,它在 Web 应用程序和服务之间尤其流行用于身份验证和信息交换。JWT 的主要优点和特性包括: 自包含(Self-contained): JWT 本身包含了所有必要的信息。

    2024年02月04日
    浏览(52)
  • Kafka核心设计与实践原理:设计理念、基本概念、主要功能与应用场景

    详细介绍Kafka作为分布式流式处理平台的设计理念、基本概念,以及其主要功能与应用场景,包括消息系统、容错的持久化、流式处理平台等功能,同时探讨如何保证消息的唯一性、消费顺序等问题。

    2024年02月22日
    浏览(48)
  • 分布式数据库事务故障恢复的原理与实践

    关系数据库中的事务故障恢复并不是一个新问题,自70年代关系数据库诞生之后就一直伴随着数据库技术的发展,并且在分布式数据库的场景下又遇到了一些新的问题。本文将会就事务故障恢复这个问题,分别讲述单机数据库、分布式数据库中遇到的问题和几种典型的解决方

    2024年02月03日
    浏览(41)
  • 从文本中“看”出主题分布:LDA模型原理、应用和实践

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由ERNIE-ViLG AI 作画大模型生成) LDA(Latent Dirichlet Allocation)模型是

    2024年02月01日
    浏览(41)
  • 从原理到实践,分析 Redisson 分布式锁的实现方案(二)

            上篇讲解了如何用 Redis 实现分布式锁的方案,它提供了简单的原语来实现基于Redis的分布式锁。然而,Redis作为分布式锁的实现方式也存在一些缺点。本文将引入Redisson来实现分布式锁。         Redisson是一个基于Redis的分布式Java框架。它提供了丰富的功能和工

    2024年02月15日
    浏览(47)
  • 从《区块链技术原理与应用实践》看区块链技术如何激活新场景赋能价值传递

    当下,区块链技术成为各个行业关注的重点。作为数字经济时代的重要底层支撑技术之一,在推动数字产业化、健全完善数字经济治理体系、强化数字经济安全体系中发挥着重要作用。近日,上海和数集团、苏州和数区块链应用研究院有限公司董事长唐毅先生编著《区块链技

    2024年01月16日
    浏览(43)
  • Kafka原理、部署与实践——深入理解Kafka的工作原理和使用场景,全面介绍Kafka在实际生产环境中的部署

    作者:禅与计算机程序设计艺术 随着互联网的发展,网站的流量呈爆炸性增长,传统的基于关系型数据库的数据处理无法快速响应。而NoSQL技术如HBase、MongoDB等被广泛应用于分布式数据存储与处理,却没有提供像关系型数据库一样的ACID特性、JOIN操作及完整性约束。因此,很

    2024年02月09日
    浏览(64)
  • 【送书福利-第七期】《分布式中间件核心原理与RocketMQ最佳实践》

    大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员。关注公众号【程序员洲洲】即可获得10G学习资料、面试笔记、大厂独家学习体系路线等…还可以加入技术交流群欢迎大家在CSDN后台私信我! 分布式中间件核心原理与RocketMQ实战技术一本通:实战案例+操作步骤+执行效

    2024年02月08日
    浏览(98)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包