HDFS 跨集群数据同步(hive,hadoop)

这篇具有很好参考价值的文章主要介绍了HDFS 跨集群数据同步(hive,hadoop)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

两个不同的HDFS 集群数据迁移( A集群的数据 -> B 集群) 采用的是 SHELL 脚本

  1.  按表进行;

  2. 日期分区进行;文章来源地址https://www.toymoban.com/news/detail-859500.html

  3. #!/bin/bash
    #####################
    #创建人:DZH
    #创建日期: 2020-04
    #内容: 数据迁移
    #####################
    #####################################
    [ "$#" -ne 0 ] && FILE=$1
    path=$(cd `dirname $0`; pwd)
    ############## 获取执行时间范围 (默认7天) ###################
    #if [ "$#" -eq 3 ]; then
    # START_DATE=$2
    # END_DATE=$3
    #else
    # START_DATE=`date -d"-1 day" +%Y-%m-%d`
    # END_DATE=`date -d "-0 day" +%Y-%m-%d`
    #fi
    #
    #echo ${START_DATE}
    #echo ${END_DATE}
    # 读取账户列表
    cat $FILE|while read dbtablelist
    do
    db_name=`echo $dbtablelist|awk -F "|" '{print $1}'`
    table_name=`echo $dbtablelist|awk -F "|" '{print $2}'`
    part_field=`echo $dbtablelist|awk -F "|" '{print $3}'`
    start_date=`echo $dbtablelist|awk -F "|" '{print $4}'`
    end_date=`echo $dbtablelist|awk -F "|" '{print $5}'`
    #if [${start_date} -eq "2999-01-01" ]; then
    # start_date=`date -d"-1 day" +%Y-%m-%d`
    # end_date=`date -d "-0 day" +%Y-%m-%d`
    #fi
    #将日期转为的时间戳格式
    startDate=`date -d "${start_date}" +%s`
    endDate=`date -d "${end_date}" +%s`
    #计算两个时间戳的差值除于每天86400s即为天数差
    stampDiff=`expr $endDate - $startDate`
    days=`expr $stampDiff / 86400`
    echo "${days} 天数据"
    ############# for 单个分区表循环迁移 ################
    for((i=0;i<=${days};i++))
    do
    part_date=`date -d "${start_date} +${i} day" +'%Y-%m-%d'`
    echo "${db_name}.${table_name} ${part_date} 迁移开始"
    #迁移 网络限制300M 增量形式迁移
    hadoop distcp -bandwidth 300 -m 90 -update
    hdfs://10.13.128.4:8020/user/hive/warehouse/${db_name}.db/${table_name}/${part_field}=${
    part_date}
    hdfs://172.21.12.223:8020/user/hive/warehouse/${db_name}.db/${table_name}/${part_field}=
    ${part_date}
    echo "${db_name}.${table_name} ${part_date} 迁移完成"
    done
    ############# for 单个分区表循环迁移 ################
    ######################################
    done

到了这里,关于HDFS 跨集群数据同步(hive,hadoop)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

    1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。 数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、

    2024年01月22日
    浏览(39)
  • 【大数据之Hadoop】二十八、生产调优-HDFS集群扩容及缩容

      增加或缩减服务器,注意不允许白名单和黑名单同时出现同一个主机。   原有数据节点不能满足数据存储需求时,需要在原有集群的基础上动态增加节点,即动态增加服务器,增加服务器的同时不需要重启集群。   hadoop完全分布式集群设置了3个datanode节点,当白名

    2024年02月03日
    浏览(46)
  • [AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅

    作为一位Java大师,我始终追求着技术的边界,最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中,我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从\\\"是什么\\\"、\\\"为什么\\\"和\\\"怎么办\\\"三个角度,系统地介绍这些技术。 Hadoop Hadoop是一个开源的分布式计算

    2024年02月03日
    浏览(31)
  • 大数据期资料2023 Beta版 - Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase详解

    了解大数据概念、Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase等技术,包括特点、命令操作和启动关闭方法。获取2023年大数据资料Beta版。

    2024年02月06日
    浏览(129)
  • 测试环境搭建整套大数据系统(三:搭建集群zookeeper,hdfs,mapreduce,yarn,hive)

    https://blog.csdn.net/weixin_43446246/article/details/123327143 java_home填写自己安装的路径。 vim core-site.xml 将以下信息填写到configuration中 vim hdfs-site.xml vim mapred-site.xml vim yarn-site.xml vim workers 启动zk 三台机器全部执行 在node01执行 格式化NameNode 。 在node01执行 启动hdfs 在node01执行 启动yarn jps

    2024年02月20日
    浏览(37)
  • 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

    项目介绍 有需要整个项目的可以私信博主,提供部署和讲解,对相关案例进行分析和深入剖析 环境点击顶部下载 = 本研究旨在利用Python的网络爬虫技术对豆瓣电影网站进行数据抓取,并通过合理的数据分析和清洗,将非结构化的数据转化为结构化的数据,以便于后续的大数

    2024年02月11日
    浏览(34)
  • 云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 大数据是需求,云计算是手段。没有大数据,就不需要云计算;没有云计算,就无法处理大数据。 所有的计算能力、存储能力、和各种各样功能的应用都通过网络

    2024年02月04日
    浏览(42)
  • Hadoop生态 | HDFS | Yarn | Hive | Hbase

    ⭐ 简单说两句 ⭐ 作者: 后端小知识 , CSDN后端领域新星创作者|阿里云专家博主 CSDN 个人主页 :后端小知识 🔎 GZH : 后端小知识 🎉 欢迎关注 🔎 点赞 👍 收藏 ⭐️ 留言 📝 进入大数据阶段就意味着进入NoSQL阶段,更多的是面向OLAP场景,即数据仓库、BI应用等。 大数据技

    2024年04月08日
    浏览(42)
  • 【Hadoop】-HDFS集群环境部署[2]

    目录 一、VMware虚拟机中部署 1、安装包下载 2、集群规划 3、上传解压 3.1.上传hadoop安装包到node1节点中 3.2.解压缩安装包到/export/server/中 3.3.构建软连接 4、进入hadoop安装包内 4.1Hadoop安装包目录结构 4.2修改配置文件,应用自定义设置 4.2.1.配置workers文件 4.2.2.配置hadoop-env.sh文件

    2024年04月27日
    浏览(24)
  • 单机搭建hadoop环境(包括hdfs、yarn、hive)

    单机可以搭建伪分布式hadoop环境,用来测试和开发使用,hadoop包括: hdfs服务器, yarn服务器,yarn的前提是hdfs服务器, 在前面两个的基础上,课可以搭建hive服务器,不过hive不属于hadoop的必须部分。 过程不要想的太复杂,其实挺简单,这里用最糙最快最直接的方法,在我的单

    2024年02月20日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包