大数据开发之Hive案例篇12:HDFS rebalance 一例

这篇具有很好参考价值的文章主要介绍了大数据开发之Hive案例篇12:HDFS rebalance 一例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一. 问题描述

公司的离线数仓是CDH集群,19个节点,HDFS存储空间大约400TB左右,使用量在200TB左右。
由于历史遗留的问题,数据仓库需要重构,新旧数仓在一段时间内需要并存,此时HDFS空间救不够了。

于是申请增加6个节点,每个节点挂20T的存储,累积给HDFS增加120TB左右空间。

二. 解决方案

2.1 增加节点

通过Cloudera Manager 将新增加的6台机器加入到集群。
增加完节点后
大数据开发之Hive案例篇12:HDFS rebalance 一例

2.2 rebalance

节点间数据分布不均匀:
新增加节点与旧节点之间数据分布不均匀
(这还是HDFS rebalance执行了一天多的时候的截图)
大数据开发之Hive案例篇12:HDFS rebalance 一例

rebalance耗时:
大数据开发之Hive案例篇12:HDFS rebalance 一例

rebalance后节点数据分布情况:
大数据开发之Hive案例篇12:HDFS rebalance 一例

2.3 rebalance引发的问题

rebalance引发的问题:

retrying (13 attempts left). Error: <class 'kafka.errors.NotLeaderForPartitionError'>

Kafka出了问题,选主过程受到ZK的影响,导致生产者写的时候找不到主节点,进而导致数据丢失
大数据开发之Hive案例篇12:HDFS rebalance 一例文章来源地址https://www.toymoban.com/news/detail-492289.html

到了这里,关于大数据开发之Hive案例篇12:HDFS rebalance 一例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据开发之Hive案例篇10-大表笛卡尔积优化

    需求描述: 表概述: 需要实现的需求 SQL代码: 运行日志: 从日志可以看到,数据倾斜了,redcue一直卡在99%不动,过一段时间就被断开了。 web页面日志: 从web页面可以看到,reduce被kill的原因是Container被ApplicationMaster给kill掉了 过一段时间整个Job都被kill掉了 因为reduce卡在了99%,所以

    2024年02月09日
    浏览(74)
  • 大数据开发之Hive案例篇9-Not yet supported place for UDAF ‘count‘

    一个很简单的group by和count(*) 操作,然后居然报错了 大概是在Oracle MySQL上写SQL写习惯了,以为可以这么写。 出了问题也是不知道从何排查 后面把order by子句注释掉之后,居然就可以了,那么就是order by 后面不能跟聚合函数了 于是使用了聚合函数的别名,问题搞定 修改为如下

    2024年02月06日
    浏览(41)
  • [大数据 Sqoop,hive,HDFS数据操作]

    目录 🥗前言: 🥗实现Sqoop集成Hive,HDFS实现数据导出 🥗依赖: 🥗配置文件: 🥗代码实现: 🥗控制器调用: 🥗Linux指令导入导出: 🥗使用Sqoop将数据导入到Hive表中。例如: 🥗使用Sqoop将数据从Hive表导出到MySQL中。例如: 🥗使用Sqoop将数据导入到HDFS中。例如: 🥗使用Sqoop将数据

    2024年02月09日
    浏览(30)
  • 【Hive】安装配置及导入Hdfs数据

    大家好!我是初心,很高兴再次和大家见面。 今天跟大家分享的文章是 Hive的安装以及导入Hdfs的数据到Hive中 ,希望能帮助到大家!本篇文章收录于 初心 的 大数据 专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,和大家共同努力 💕 欢迎大家:这里

    2024年02月09日
    浏览(81)
  • HDFS 跨集群数据同步(hive,hadoop)

    两个不同的HDFS 集群数据迁移( A集群的数据 - B 集群) 采用的是 SHELL 脚本  按表进行; 日期分区进行; #!/bin/bash ##################### #创建人:DZH #创建日期: 2020-04 #内容: 数据迁移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 获取执

    2024年04月27日
    浏览(36)
  • xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

    咱们就是说,别的话不多说,直接开始实操 xslx在win系统上,打开后另存为csv文件格式,上传到linux系统中。(注意下编码格式,不然后面就是中文乱码)。 file -i csv文件 可以查看文件现在的编码格式(编码格式不匹配会导致文件内中文乱码)。 修改文件的编码格式: iconv

    2024年01月25日
    浏览(31)
  • 【Hive-基础】表数据的导出、导入(HDFS、本地)

    1、语法 (1) load data :表示加载数据 (2) local :表示从本地加载数据到hive表;否则从HDFS加载数据到hive表 (加local是从本地复制过去,不加local是从hdfs上剪切过去) (3) inpath :表示加载数据的路径 (4) overwrite :表示覆盖表中已有数据,否则表示追加 ​ (overwrite会把

    2024年01月21日
    浏览(30)
  • 一百一十一、Hive——从HDFS到Hive的数据导入(静态分区、动态分区)

    分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹, Hive 中的分区就是分目录 ,把一个大的数据集根据业务需要分割成小的数据集。 在查询时通过 where 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多,所以我们需要把常常用在where 语句中

    2024年02月12日
    浏览(36)
  • 【大数据Hive3.x数仓开发】窗口函数案例:连续N次登录的用户;级联累加求和;分组TopN

    对窗口函数的讲解part见:【大数据Hive3.x数仓开发】函数–窗口函数 自连接过滤实现 连续两天登陆的用户ID: 窗口函数lead()实现 功能:用于从当前数据中基于当前行的数据向后偏移取值 语法: lead(colName,N,defautValue) colName:取哪一列的值 N:向后偏移N行 defaultValue:如果取不到返回

    2023年04月17日
    浏览(25)
  • datax 同步mongodb数据库到hive(hdfs)和elasticserch(es)

    1.mongodb版本:3.6.3。(有点老了,后来发现flinkcdc都只能监控一张表,多张表无法监控) 2.datax版本:自己编译的DataX-datax_v202210 3.hdfs版本:3.1.3 4.hive版本:3.1.2 1.增量数据:需要每隔1小时将mongodb中17个集合的数据同步至hive,因为有数据生成时间,才用datax查询方式,将上一个

    2023年04月23日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包