Apache Doris 系列:Bucket(分桶)数量设置建议

这篇具有很好参考价值的文章主要介绍了Apache Doris 系列:Bucket(分桶)数量设置建议。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Bucket(分桶)数量设置不当带来的问题

问题描述:上线运行一段时间后,随着越来越多的数据增长,集群每次重启后一周左右,读写就会开始变得越来越慢,直到无法正常进行读写。

问题处理:

  • 对数仓表的 Schema 的分析,发现有些表数据并不大,但是 Bucket 却设置的非常大
  • 通过show data from table命令列出所有表Bucket信息,大部分的Bucket设置不合理
  • 按照官方的建议将调整Bucket设置,调整后集群逐步恢复正常的读写

关于 Partition 和 Bucket 的数量和数据量的建议

  • 一个表的 Tablet 总数量等于 (Partition num * Bucket num)
  • 数量原则: 一个表的 Tablet 数量,在不考虑扩容的情况下,推荐略多于整个集群的磁盘数量
  • 数据量原则:单个 Tablet 的数据量理论上没有上下界,但建议在 1G - 10G 的范围内。如果单个 Tablet 数据量过小,则数据的聚合效果不佳,且元数据管理压力大。如果数据量过大,则不利于副本的迁移、补齐,且会增加 Schema Change 或者 Rollup 操作失败重试的代价(这些操作失败重试的粒度是 Tablet)
  • **当 Tablet 的数据量原则和数量原则冲突时,建议优先考虑数据量原则
  • 在建表时,每个分区的 Bucket 数量统一指定。但是在动态增加分区时(ADD PARTITION),可以单独指定新分区的 Bucket 数量。可以利用这个功能方便的应对数据缩小或膨胀
  • 一个 Partition 的 Bucket 数量一旦指定,不可更改。所以在确定 Bucket 数量时,需要预先考虑集群扩容的情况。比如当前只有 3 台 host,每台 host 有 1 块盘。如果 Bucket 的数量只设置为 3 或更小,那么后期即使再增加机器,也不能提高并发度
  • 举一些例子:假设在有10台BE,每台BE一块磁盘的情况下。如果一个表总大小为 500MB,则可以考虑4-8个分片。5GB:8-16个分片。50GB:32个分片。500GB:建议分区,每个分区大小在 50GB 左右,每个分区16-32个分片。5TB:建议分区,每个分区大小在 50GB 左右,每个分区16-32个分片

注:表的数据量可以通过 SHOW DATA 命令查看,结果除以副本数,即表的数据量文章来源地址https://www.toymoban.com/news/detail-576445.html

到了这里,关于Apache Doris 系列:Bucket(分桶)数量设置建议的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Apache Doris 聚合函数源码阅读与解析|源码解读系列

    笔者最近由于工作需要开始调研 Apache Doris,通过阅读聚合函数代码切入 Apache Doris 内核,同时也秉承着开源的精神,开发了 array_agg 函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解,同时也方便后面的新人更快速地上手源码开发。 聚合函数,顾名思义,即对一

    2024年01月25日
    浏览(38)
  • Apache Doris (四十八): Doris表结构变更-替换表

     🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客  🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。  🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录

    2024年02月07日
    浏览(42)
  • Apache Doris (八) :Doris分布式部署(五) Broker部署及Doris集群启动脚本

    目录 1.Broker部署及扩缩容 1.1 BROKER 部署 1.2 BROKER 扩缩容 2. Apache Doris集群启停脚本

    2024年02月11日
    浏览(40)
  • Apache Doris (六十四): Flink Doris Connector - (1)-源码编译

     🏡 个人主页:IT贫道-CSDN博客   🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~  🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频 目录 1. Flink与Doris版本兼容

    2024年01月18日
    浏览(53)
  • 【Doris实战】Apache-doris-2.0.2部署帮助手册

    校验时间:2023年10月11日 版权声明:本文为CSDN博主「顧棟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_43820556/article/details/133754689 安装包 apache-doris-2.0.2-bin-x64.tar.gz jdk1.8.0_131.tgz mysql-5.7.43-linux-glibc2.12-x86_64.tar.g

    2024年02月07日
    浏览(51)
  • Apache Doris (二十三) :Doris 数据导入(一)Insert Into

    目录 1. 语法及参数 2. 案例 ​​​​3. 注意事项 3.1. 关于插入数据量

    2024年02月13日
    浏览(53)
  • 大数据Doris(六十五):基于Apache Doris的数据中台2.0

    文章目录 基于Apache Doris的数据中台2.0 一、​​​​​​​架构升级

    2024年02月20日
    浏览(63)
  • Apache Doris 入门教程03:使用Docker或Kubernetes部署Doris

    该文档主要介绍了如何通过 Dockerfile 来制作 Apache Doris 的运行镜像,以便于在容器化编排工具或者快速测试过程中可迅速拉取一个 Apache Doris Image 来完成集群的创建。 概述​ Docker 镜像在制作前要提前准备好制作机器,该机器的平台架构决定了制作以后的 Docker Image 适用的平台

    2024年02月07日
    浏览(45)
  • Apache Doris

    1.Doris 简介 1.1 Doris 概述 Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后, 更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一 业务最大可达到上百 TB。 Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大

    2024年02月06日
    浏览(38)
  • Apache Doris 学习笔记

    目录 一、Doris简介 一)概述 二)使用场景 三)架构 二、Doris安装部署 一)安装要求 2.1.1 Linux操作系统 2.1.2 软件需求 2.1.3 开发测试环境 2.1.4 生产环境 2.1.5 内部端口使用说明 二)部署 2.2.1 操作系统 2.2.2 Doris安装包 2.2.3 解压安装包 2.2.4 配置FE 2.2.5 配置BE 三、Doris数据表设计

    2024年02月05日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包