自动弹性,QPS线性提升|一文读懂云原生数仓AnalyticDB弹性技术原理

这篇具有很好参考价值的文章主要介绍了自动弹性,QPS线性提升|一文读懂云原生数仓AnalyticDB弹性技术原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

在全球经济增长放缓的大背景之下,企业在加强数字化建设的过程中,实现效益最大化成为一个绕不开的话题。阿里云瑶池旗下的云原生数仓AnalyticDB MySQL湖仓版(以下简称AnalyticDB MySQL)在发布之初提供了定时弹性功能,帮助业务有规律的客户定时升降配计算资源以节省成本。时隔一年,AnalyticDB MySQL针对用户痛点,再推出Multi-Cluster弹性资源模式,它具备贴合用户负载、自动配置、性能线性提升等优点,进一步帮用户节省成本,提高计算效率。

弹性模型介绍

弹性模型分为两种,分别是Min-Max弹性模型和Multi-Cluster弹性模型。

▶︎ Min-Max弹性模型:

单个SQL可使用的资源量在Min和Max资源量之间进行扩缩,该模型适用于ETL场景,用于提升单个SQL的性能。例如,Min=16 cores,Max=32cores,单个SQL可使用的资源量在区间[16cores, 32cores]中。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

▶︎ Multi-Cluster弹性模型:

以Cluster粒度进行资源扩缩,单个SQL可使用的资源量为单个Cluster,Cluster之间资源隔离,该模型适用于在线分析和交互式分析场景,用于提升SQL的并发度。

例如,单个Cluster大小=16cores,最小Cluster和最大Cluster个数分别为1和2,那么,每个SQL可使用的资源量为16cores(单个Cluster),随着SQL并发度的提高或降低,Cluster个数可以在1和2之间自动进行调整,Cluster1中运行的SQL不会影响Cluster2中的SQL。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

Multi-Cluster弹性模式优势

AnalyticDB MySQL在没有Multi-Cluster弹性模型之前,采用的是Min-Max弹性模型,通过定时弹性实现资源的弹起和释放,存在不少限制,具体表现在以下方面:

  • 易用性:用户只能根据业务规律,在固定时间段将资源弹升,弹性计划生效间隔长(最短间隔10分钟);
  • 性能:小查询的性能容易受到大查询的干扰, 查询并发数不随资源组大小变化,查询可能排队;
  • 成本:用户需要指定固定时间段的弹升规格,难以贴合实时的业务负载,短时间段的业务波谷无法缩容。

为了解决上述问题,应对查询的高并发实时分析场景,AnalyticDB MySQL引入了Multi-Cluster弹性模型。Multi-Cluster弹性模型作用在AnalyticDB MySQL在线资源组内部,一个在线资源组由一个或者多个Cluster组成,相比Min-Max弹性模型,在易用性、性能和成本上均有了较大提升。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

易用性

自动根据当前实例的负载进行Cluster个数的扩缩,无需手动设置资源扩缩时间,更灵活地应对不同的业务流量。用户只需设置好Cluster个数的上限、下限及每个Cluster大小即可。

性能

Cluster之间资源隔离,单个SQL只会影响其所在的Cluster,不影响其余Cluster中SQL的运行,避免了单个大SQL对其它小SQL的干扰,进而影响资源组内查询的整体性能。根据实验结果,随着Cluster个数的增多,查询并发数呈线性增长趋势。与Min-Max弹性模型相比,Multi-Cluster弹性模型下在同等计算资源下,查询并发度可提升高达28%。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

成本

贴合用户负载,动态选择最优Cluster个数,应对业务的波峰波谷。为了更直观地展示Multi-Cluster弹性模型和Min-Max弹性模型在成本上的收益,我们这里举个实际应用的案例:

  • 0-7点:某客户在晚上0-7点的时候,处于业务低峰期,用户采用定时弹性,将计算资源缩小至48ACU;
  • 7-24点:客户业务处于间歇性高峰期,用户采用定时弹性将计算资源保持在192ACU,以应对随时可能到来的波峰;
  • 全天使用的总资源量为3600ACU。

注:ACU(AnalyticDB Compute Unit)是AnalyticDB MySQL湖仓版资源分配的最小单位。一个ACU约等于1核4GB。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

应用Multi-Cluster弹性模型之后:

  • 0-7点:用户将Cluster大小缩小为48ACU,保持和定时弹性的资源使用量一直;
  • 7-24点:用户将Cluster大小变为96ACU,并设置最小Cluster个数为1,最大Cluster为2;
  • 全天使用的总资源量为2208ACU,相比定时弹性节省资源约38.7%。

可以看到相对定时弹性,Multi-Cluster弹性模型可以在业务两个高峰之间的波谷,为用户减少Cluster个数,节省成本,当用户的业务波峰到来后,Cluster个数随之弹升,满足业务负载。

总的来说,相比Min-Max弹性模型,Multi-Cluster弹性模型更适合高并发实时分析场景,体现在易用性、性能和成本等维度。下面我们将深入地了解Multi-Cluster的技术架构,以及如何实现“弹得准、弹得快、弹得好”的目标。

Multi-Cluster技术架构

在设计Multi-Cluster技术架构的时候,我们的核心目标有三个:弹得准、弹得快、弹得好。下图是AnalyticDB MySQL Multi-Cluster的整体架构图,从上至下可分为三层:

  • 接入层:负责将用户的查询投递到特定的资源组,再根据Cluster的负载情况分配到具体的Cluster上去执行;
  • 执行层:资源组内部划分为相同大小的多个Cluster,每个query只在其中一个Cluster上执行;
  • 决策层:通过实时读取AnalyticDB MySQL资源的负载情况,进行Multi-Cluster资源组的扩缩容决策。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

弹得快:实时数据链路

为了保障扩容的时效性,快速应对用户查询的到来,AnalyticDB MySQL建立了Region级别的指标采集系统。AnalyticDB MySQL实例也进行了改造,能实时地更新内部的业务指标(如Query排队数、CPU使用等),并被指标采集进程采集到中心的存储端。目前整个数据链路的延迟在10s左右。

弹得准:稳定的扩缩容策略

AnalyticDB MySQL实例是由接入层节点、计算节点、存储节点共同构成的复杂系统,在对计算资源进行扩缩容决策的时候面临如下挑战:

  • 多组件交互的系统,如何识别外部组件瓶颈;
  • 实例指标繁多,基于什么指标来进行扩缩容决策;
  • 如何防止指标短时间的抖动,导致扩缩容策略不准;
  • 如何判断扩缩容决策是否合理。

为此,我们将整个Cluster个数计算分为三个阶段:决策、执行、反馈。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

决策

▶︎ 瓶颈识别

我们在决策系统中,将指标分为两类:

正向指标:反馈要扩容目标的负载情况,决定扩容目标的扩缩容。

负向指标:反馈除扩容目标外的其余组件的负载情况,用于判断外部瓶颈。

当负向指标达到设定的阈值时,我们认为计算节点扩容对于AnalyticDB MySQL实例整体而言已经无法起到加速查询,提升并发数的作用。对于这种情况,决策系统将会报警直至瓶颈解除。

▶︎ Cluster个数预估

对AnalyticDB MySQL实例的负载分析后,我们发现对于扩缩容的决策并不能由单个指标决定,随着用户负载类型不同,决定扩缩容的指标也不一样。主要用到的指标有:用户CPU使用率,用户内存使用率,用户查询排队数等。

因此在扩缩容的预估的过程中,我们会先根据每个指标计算得出一个候选Cluster数,最后再选择所有指标中最大的Cluster数作为最终候选项。

  • 对于和Cluster挂钩的指标(如CPU利用率)我们采用如下计算公式:

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

  • 对于和资源组挂钩、但不和Cluster挂钩的指标(如查询排队数和并发数)我们采用如下公式计算:

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

  • 最终我们取所有算出来的目标Cluster数的较大值:

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

▶︎ 稳定窗口

为避免因为实例负载抖动等因素造成的metric抖动,我们采用了稳定窗口的算法来避免抖动

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

在稳定窗口期间,每次预估的Cluster个数都会记录下来,并使用当前的Cluster个数和稳定窗口中推荐的个数进行对比。

a) 若窗口Min ≤ 当前Cluster个数 ≤ 窗口Max,则当前Cluster个数保持不变;

b) 若当前Cluster个数 < 窗口Min,则说明应当将当前Cluster个数应当扩容至窗口Min;

c) 若当前Cluster个数 > 窗口Max,说明当前Cluster个数应当缩到稳定窗口Max。

执行

资源组内部的Cluster,在AnalyticDB MySQL内部对应的K8s的自定义资源(Custom Resource),由自研的Operator进行管理,这些自定义资源实现了K8s的Scale SubResource。当决策系统作出决策后,会通过K8s的Scale API,将目标Cluster个数下发给自定义Operator进行扩缩容。

反馈:有效性评估

在执行完扩(缩)容后,决策系统会记录扩容之前的metric指标的值,并在扩(缩)容完成后持续观察用户负载的指标。

  • 扩容评估: 决策系统持续观察扩容后用户查询的qps是否按照Cluster的比例增长了,或者用户查询的rt是否按照Cluster的比例降低了,如果没有明显增长,则认为扩容无效,决策将Cluster个数恢复成扩容前的个数,停止扩容决策运行,并预警。
  • 缩容评估:决策系统持续观察缩容后用户查询的qps和rt是否均有明显变化,如果变化超过了一定的阈值,则将Cluster恢复成缩容前的个数,决策系统将Cluster个数恢复成缩容前的个数,停止缩容决策,并预警。

弹得好:负载均衡路由策略

在Cluster个数提升之后,用户无需指定查询路由到的Cluster,AnalyticDB MySQL自动根据负载均衡算法将查询路由到负载最小的Cluster中。

下图是一个根据Cluster负载均衡路由的示意图。

1. 当Q5到来时,由于Cluster0的负载是2,Cluster1的负载是1,Cluster2的负载是1。Q5会优先分配给Cluster1执行。

2. 当Q6到来时,由于Cluster0的负载是2,Cluster1的负载是2,Q6会分配给Cluster2执行。

阿里云弹性扩容,提升效率,云原生,数据库,阿里云,云计算

总结及未来规划

为了更好地贴合业务负载,充分利用资源,实现效益最大化,我们推出了AnalyticDB MySQL Multi-Cluster弹性模型,完成了自动化、智能化扩缩容。AnalyticDB MySQL Multi-Cluster形态有如下特点:

1. 成本:贴合业务负载自动扩缩容,相比单Cluster资源组固定资源,可以节省更多的成本;

2. 查询性能:线性增加,查询的隔离性相比Min-Max模型资源组要更优越;

3. 自动弹性:避免了用户手动调整资源组大小。

未来,我们还将在以下几个方面继续打磨和增强:文章来源地址https://www.toymoban.com/news/detail-826298.html

  • 主动弹性:基于预测的主动弹性,查询延迟最小化;
  • 负载解耦:基于WorkLoadManager,大query自动投递到离线资源组减少对在线资源组的资源抢占;
  • 弹性效率:资源Pod热池加速弹性效率;
  • 效果展示:性能优化及成本节省可视化。

到了这里,关于自动弹性,QPS线性提升|一文读懂云原生数仓AnalyticDB弹性技术原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 高并发场景下的 HttpClient 优化,QPS 大大提升!

    HttpClient优化思路: 池化 长连接 httpclient和httpget复用 合理的配置参数(最大并发请求数,各种超时时间,重试次数) 异步 6、多读源码 我们有个业务,会调用其他部门提供的一个基于http的服务,日调用量在千万级别。使用了httpclient来完成业务。之前因为qps上不去,就看了一

    2024年02月03日
    浏览(33)
  • QPS提升近10倍!解读飞桨加持下的文心一言满月成绩单

    近期,一直犹抱琵琶半遮面的国内各路AI相关厂商,扎堆发布大模型。一时间,百“模”大战,鱼龙混杂。 此前,作为全球第一个正式发布大模型的大厂,百度文心一言的一举一动,成为业界关注的焦点。 就在4月19日,时隔文心一言发布1个月又3天,一张“百度飞桨对文心一

    2023年04月27日
    浏览(29)
  • 文心一言迭代数据曝光,QPS提升10倍,留给大模型创业玩家的涌现时间不多了...

    杨净 发自 凹非寺 量子位 | 公众号 QbitAI 文心一言上线内测一个月后,首份迭代数据曝光: 一个月共迭代4次; 模型推理效率提升10倍,最近一次带来的推理提升达到123%; 推理性能提升50%,模型算力利用率提升1倍。 简单归纳就是说,迭代很快、不仅成本降下来了,顺便还把

    2024年02月10日
    浏览(28)
  • 阿里云云原生弹性方案:用弹性解决集群资源利用率难题

    随着上云的认知更加普遍,我们发现除了以往占大部分的互联网类型的客户,一些传统的企业,一些制造类的和工业型企业客户也都开始使用云原生的方式去做 IT 架构的转型,提高集群资源使用率也成为企业上云的一致共识。大家上云的同时,开始思考有没有云原生的方法能

    2024年02月02日
    浏览(33)
  • 一文理解云计算中的弹性伸缩

    作者:禅与计算机程序设计艺术 “云计算”已经成为热门话题。从最早的小型机到现在的大型集群服务器、分布式系统,云计算越来越受到青睐,对企业业务快速响应和创新发展,带动着新一代信息化服务的革命。但同时,云计算也面临着新的挑战。在面对海量数据时如何处

    2024年02月09日
    浏览(31)
  • 一文读懂LockSupport

    阅读本文前,需要储备的知识点如下,点击链接直接跳转。 java线程详解 Java不能操作内存?Unsafe了解一下 搞java开发的基本都知道J.U.C并发包(即java.util.concurrent包),所有并发相关的类基本都来自于这个包下,这个包是JDK1.5以后由祖师爷Doug Lea写的, LockSupport 也是在这时诞生

    2024年02月12日
    浏览(37)
  • 一文读懂数据加密

    在计算机信息安全领域,之前软件设计师的网络安全部分了解了一点密码学的知识,这里随想记录一下。 数据加密 的基本过程就是对原来为 明文 的文件或数据按 某种算法 进行处理,使其成为不可读的一段代码为“ 密文 ”,使其只能在输入相应的 密钥 之后才能显示出原容

    2024年02月03日
    浏览(26)
  • 一文读懂HTML

    HTML(HyperText Markup Language)的历史可以追溯到20世纪90年代早期,它是互联网发展的重要里程碑之一。以下是HTML的历史概述: 早期阶段(1980年代末 - 1990年代初):在互联网的早期阶段,人们开始意识到需要一种标记语言来创建和共享文档。这导致了Tim Berners-Lee在1989年至1991年

    2024年02月13日
    浏览(28)
  • 一文读懂 MySQL 锁

    1.1 什么是锁 锁是计算机用以协调多个进程间并发访问同一共享资源的一种机制。MySQL中为了保证数据访问的一致性与有效性等功能,实现了锁机制,MySQL中的锁是在服务器层或者存储引擎层实现的。 1.2 锁用来解决什么问题 锁是用来解决并发事务的访问问题,我们已经知道事

    2024年02月08日
    浏览(57)
  • 一文读懂ThreadLocal

    目录 ThreadLocal 有什么用? 如何使用 ThreadLocal? ThreadLocal 原理了解吗? ThreadLocal 有什么用? 通常情况下,我们创建的变量是可以被任何一个线程访问并修改的。 如果想实现每一个线程都有自己的专属本地变量该如何解决呢? JDK 中自带的 ThreadLocal 类正是为了解决这样的问题

    2024年02月13日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包