hadoop生态圈-- 个人笔记学习04 数据迁移

这篇具有很好参考价值的文章主要介绍了hadoop生态圈-- 个人笔记学习04 数据迁移。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据迁移场景

  • 冷热集群数据同步、分类存储
  • 集群数据整体迁移
  • 准实时同步
    • 双备份
    • 线上把集群切向B的同步集群

要素考量

  1. bandwdith
  2. performance
    1… 单机?分布式?
  3. data-increment
    1. 可以配合HDFS快照等技术实现增量数据同步。
  4. syncable .数据指定周期内未完成同步,下一周期开始,无法做到 准实时一致性

DistCp

数据迁移,定期在集群之间、内部备份数据 —— 性能相对慢。

使用MapReduce在群集之间或并行在同一群集内复制文件

  • 构建复制的文件列表 —— 复制列表
  • 运行MR作业来复制文件,复制列表为输入
    DistCp又是特性
  • bandwidth限流,防止数据占用大量bandwidth性能下降
  • DistCp使用update,append,diff三个参数增量同步
name function
update 拷贝不存在的文件目录 —— 新增文件。目录同步
Append 追加写路径已存在的文件
Diff 快照的Diff对比信息同步源路径和目标路径(删除 重命名)

安全模式

hdfs的safe mode是NameNode维护状态,该模式下NameNode不能更改

  1. 从fsimage和edits日志文件加载文件系统状态
  2. 等待DN汇报可用的block信息,在此期间,NN保持在安全模式。
  3. 系统大胆安全标准,HDFS自动离开安全模式

阶段

DFS集群启动,NN启动成功,集群进入安全模式

离开:
dfs.replication hdfs block的副本数据,默认3
dfs.replication.max 最大副本数 512
dfs.namenode.replication.min 最小块副本数,默认1
dfs.namenode.safemode.threshold-pct
已汇报可用数据块数量占整体块数量的百分比阈值。默认0.999f。
小于或等于0,则表示退出安全模式之前,不要等待特定百分比的块。大于1的值将使安全模式永久生效。

dfs.namenode.safemode.min.datanodes
指在退出安全模式之前必须存活的DataNode数量,默认0
dfs.namenode.safemode.extension
达到阈值条件后持续扩展的时间。倒计时结束如果依然满足阈值条件,自动离开安全模式。默认30000毫秒

手动获取安全模式信息

hdfs dfsadmin -safemode get

手动进入安全模式

hdfs dfsadmin -safemode enter

对于集群维护或者升级的时候使用,只读

手动离开安全模式文章来源地址https://www.toymoban.com/news/detail-533103.html

hdfs dfsadmin -safemode leave

到了这里,关于hadoop生态圈-- 个人笔记学习04 数据迁移的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据导论——Hadoop生态系统

    Hadoop是Apache软件基金会旗下一个开源分布式计算平台,为用户提供底层细节透明的基础框架。 经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经包含了多个子项目,除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括ZooKeeper,HBase,Hive,Pig,Mahout,Sqoop,Flume,Ambari等。 它实现

    2024年02月03日
    浏览(44)
  • 大数据系统架构-Hadoop生态系统

    Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储。简单来说,Hadoop是一个平台,在它之上,可以更容易地开发和运行大规模数据的软件。 Hadoop体系

    2023年04月27日
    浏览(41)
  • 【大数据】图解 Hadoop 生态系统及其组件

    在了解 Hadoop 生态系统及其组件之前,我们首先了解一下 Hadoop 的三大组件,即 HDFS、MapReduce、YARN,它们共同构成了 Hadoop 分布式计算框架的 核心 。 HDFS ( Hadoop Distributed File System ):HDFS 是 Hadoop 的 分布式文件系统 ,它是将大规模数据分散存储在多个节点上的基础。HDFS 主要

    2024年02月11日
    浏览(45)
  • Hadoop生态圈中的Flume数据日志采集工具

    数据采集一般指的是将数据采集到大数据环境下进行持久化、海量化的保存,目的主要是为了我们后期的大数据处理(数据统计分析、数据挖掘等等)沉底数据基础。 不同的来源的数据我们一般有不同的数据采集方式 1、数据来源于我们的RDBMS关系型数据库:Sqoop数据迁移工具

    2024年02月08日
    浏览(46)
  • Hadoop生态圈中的数据同步工具SQOOP

    ) 在大部分常见的软件中,比如淘宝、拼多多…,网站都会产生大量的数据 电商网站:订单数据、商品数据、分类数据、用户信息数据、用户行为数据等等 课程网站:订单数据、视频数据、课程数据、用户信息数据等等 … 虽然说不同领域的数据格式和数据含义不一样,但是

    2024年02月07日
    浏览(53)
  • Hadoop数据迁移distcp

    准备工作 确认源集群(a),目标集群(b) 确认a集群的主节点和b集群的主节点 确认两个集群的网络相通 确认迁移模式(全量迁移还是增量迁移),这里选择全量迁移 迁移文件 迁移test目录下的文件至目标目录下 命令:hadoop distcp -p -m 并行度 -bandwidth 带宽 源目录 目标目录 示

    2024年02月12日
    浏览(38)
  • Hadoop生态系统中的大数据基础知识教程

    作者:禅与计算机程序设计艺术 “Hadoop”是一个开源的分布式计算框架,基于云计算平台构建,提供海量数据的存储、分析处理和计算能力,广泛应用于金融、电信、互联网、移动通信等领域。Hadoop生态系统中存在大量的工程师和科学家,但这些人的水平参差不齐,各有所长

    2024年02月09日
    浏览(44)
  • 「大数据集群的搭建和使用」背景知识:大数据Hadoop生态圈介绍

    目录 一、Hadoop简介 二、Hadoop的运行模式 1. 单机模式 2. 伪分布式模式 3. 完全分布式模式 三、Hadoop生态圈组件 1. HDFS 2. MapReduce 3. YARN 4. Hive 5. Pig 6. HBase 7. HCatalog 8. Avro 9. Thrift 10. Drill 11. Mahout 12. Sqoop 13. Flume 14. Ambari 15. Zookeeper 四、Hadoop优缺点 五、Hadoop学习路径 hadoop = MapReduce+

    2024年02月03日
    浏览(46)
  • 一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系

    目录 1.1 Hadoop 是什么  1.2 Hadoop 发展历史 1.3 Hadoop 三大发行版本  1.4 Hadoop优势(4高)  1.5 Hadoop 组成(面试重点)  1.5.1 HDFS 架构概述   1.5.2 YARN 架构概述   1.5.3 MapReduce 架构概述   1.5.4 HDFS、YARN、MapReduce 三者关系   1.6 大数据技术生态体系  1.7 推荐系统框架图   (1 ) Had

    2024年02月01日
    浏览(49)
  • 解密Hadoop生态系统的工作原理 - 大规模数据处理与分析

    在当今的数字时代,大规模数据处理和分析已经成为了企业和组织中不可或缺的一部分。为了有效地处理和分析海量的数据,Hadoop生态系统应运而生。本文将深入探讨Hadoop生态系统的工作原理,介绍其关键组件以及如何使用它来处理和分析大规模数据。 Hadoop是一个开源的分布

    2024年02月12日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包