大数据开发之Hive案例篇12：HDFS rebalance 一例

9月前作者：只是甲分类：Toy博客阅读(94) 违法举报

这篇具有很好参考价值的文章主要介绍了大数据开发之Hive案例篇12：HDFS rebalance 一例。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一. 问题描述

公司的离线数仓是CDH集群，19个节点，HDFS存储空间大约400TB左右，使用量在200TB左右。
由于历史遗留的问题，数据仓库需要重构，新旧数仓在一段时间内需要并存，此时HDFS空间救不够了。

于是申请增加6个节点，每个节点挂20T的存储，累积给HDFS增加120TB左右空间。

二. 解决方案

2.1 增加节点

通过Cloudera Manager 将新增加的6台机器加入到集群。
增加完节点后
大数据开发之Hive案例篇12：HDFS rebalance 一例

2.2 rebalance

节点间数据分布不均匀:
新增加节点与旧节点之间数据分布不均匀
(这还是HDFS rebalance执行了一天多的时候的截图)
大数据开发之Hive案例篇12：HDFS rebalance 一例

rebalance耗时:
大数据开发之Hive案例篇12：HDFS rebalance 一例

rebalance后节点数据分布情况:
大数据开发之Hive案例篇12：HDFS rebalance 一例

2.3 rebalance引发的问题

rebalance引发的问题:

retrying (13 attempts left). Error: <class 'kafka.errors.NotLeaderForPartitionError'>

Kafka出了问题，选主过程受到ZK的影响，导致生产者写的时候找不到主节点，进而导致数据丢失
大数据开发之Hive案例篇12：HDFS rebalance 一例文章来源地址https://www.toymoban.com/news/detail-492289.html

到了这里，关于大数据开发之Hive案例篇12：HDFS rebalance 一例的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大数据开发之Hive案例篇10-大表笛卡尔积优化

需求描述: 表概述: 需要实现的需求 SQL代码: 运行日志: 从日志可以看到，数据倾斜了，redcue一直卡在99%不动，过一段时间就被断开了。 web页面日志: 从web页面可以看到，reduce被kill的原因是Container被ApplicationMaster给kill掉了过一段时间整个Job都被kill掉了因为reduce卡在了99%，所以

2024年02月09日
浏览(82)
大数据开发之Hive案例篇9-Not yet supported place for UDAF ‘count‘

一个很简单的group by和count(*) 操作，然后居然报错了大概是在Oracle MySQL上写SQL写习惯了，以为可以这么写。出了问题也是不知道从何排查后面把order by子句注释掉之后，居然就可以了，那么就是order by 后面不能跟聚合函数了于是使用了聚合函数的别名，问题搞定修改为如下

2024年02月06日
浏览(49)
[大数据 Sqoop,hive,HDFS数据操作]

目录 🥗前言: 🥗实现Sqoop集成Hive,HDFS实现数据导出 🥗依赖: 🥗配置文件: 🥗代码实现: 🥗控制器调用: 🥗Linux指令导入导出: 🥗使用Sqoop将数据导入到Hive表中。例如： 🥗使用Sqoop将数据从Hive表导出到MySQL中。例如： 🥗使用Sqoop将数据导入到HDFS中。例如： 🥗使用Sqoop将数据

2024年02月09日
浏览(46)
【Hive】安装配置及导入Hdfs数据

大家好！我是初心，很高兴再次和大家见面。今天跟大家分享的文章是 Hive的安装以及导入Hdfs的数据到Hive中，希望能帮助到大家！本篇文章收录于初心的大数据专栏。 🏠 个人主页：初心%个人主页 🧑 个人简介：大家好，我是初心，和大家共同努力 💕 欢迎大家：这里

2024年02月09日
浏览(95)
HDFS 跨集群数据同步（hive,hadoop）

两个不同的HDFS 集群数据迁移( A集群的数据 - B 集群) 采用的是 SHELL 脚本按表进行; 日期分区进行; #!/bin/bash ##################### #创建人:DZH #创建日期: 2020-04 #内容：数据迁移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 获取执

2024年04月27日
浏览(56)
xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

咱们就是说，别的话不多说，直接开始实操 xslx在win系统上，打开后另存为csv文件格式，上传到linux系统中。（注意下编码格式，不然后面就是中文乱码）。 file -i csv文件可以查看文件现在的编码格式（编码格式不匹配会导致文件内中文乱码）。修改文件的编码格式： iconv

2024年01月25日
浏览(43)
【Hive-基础】表数据的导出、导入（HDFS、本地）

1、语法（1） load data ：表示加载数据（2） local ：表示从本地加载数据到hive表；否则从HDFS加载数据到hive表（加local是从本地复制过去，不加local是从hdfs上剪切过去）（3） inpath ：表示加载数据的路径（4） overwrite ：表示覆盖表中已有数据，否则表示追加（overwrite会把

2024年01月21日
浏览(42)
一百一十一、Hive——从HDFS到Hive的数据导入（静态分区、动态分区）

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹， Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 where 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多，所以我们需要把常常用在where 语句中

2024年02月12日
浏览(54)
【大数据Hive3.x数仓开发】窗口函数案例：连续N次登录的用户；级联累加求和；分组TopN

对窗口函数的讲解part见：【大数据Hive3.x数仓开发】函数–窗口函数自连接过滤实现连续两天登陆的用户ID：窗口函数lead()实现功能:用于从当前数据中基于当前行的数据向后偏移取值语法: lead(colName，N，defautValue) colName:取哪一列的值 N:向后偏移N行 defaultValue:如果取不到返回

2023年04月17日
浏览(32)
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统（HDFS）和一个分布式计算框架（MapReduce），可以在大量廉价硬件上进行并行计算。 HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统。它被设计用于在集群中存储

2024年02月16日
浏览(55)