hadoop生态圈-- 个人笔记学习04 数据迁移-Toy模板网

这篇具有很好参考价值的文章主要介绍了hadoop生态圈-- 个人笔记学习04 数据迁移。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

数据迁移场景

冷热集群数据同步、分类存储
集群数据整体迁移
准实时同步
- 双备份
- 线上把集群切向B的同步集群

要素考量

bandwdith
performance
1… 单机？分布式？
data-increment
1. 可以配合HDFS快照等技术实现增量数据同步。
syncable .数据指定周期内未完成同步，下一周期开始，无法做到 准实时一致性

DistCp

数据迁移，定期在集群之间、内部备份数据 —— 性能相对慢。

使用MapReduce在群集之间或并行在同一群集内复制文件

构建复制的文件列表 —— 复制列表
运行MR作业来复制文件，复制列表为输入
DistCp又是特性
bandwidth限流，防止数据占用大量bandwidth性能下降
DistCp使用update，append，diff三个参数增量同步

name	function
update	拷贝不存在的文件目录 —— 新增文件。目录同步
Append	追加写路径已存在的文件
Diff	快照的Diff对比信息同步源路径和目标路径（删除重命名）

安全模式

hdfs的safe mode是NameNode维护状态，该模式下NameNode不能更改

从fsimage和edits日志文件加载文件系统状态
等待DN汇报可用的block信息，在此期间，NN保持在安全模式。
系统大胆安全标准，HDFS自动离开安全模式

阶段

DFS集群启动，NN启动成功，集群进入安全模式

离开：
dfs.replication hdfs block的副本数据，默认3
dfs.replication.max 最大副本数 512
dfs.namenode.replication.min 最小块副本数，默认1
dfs.namenode.safemode.threshold-pct
已汇报可用数据块数量占整体块数量的百分比阈值。默认0.999f。
小于或等于0，则表示退出安全模式之前，不要等待特定百分比的块。大于1的值将使安全模式永久生效。

dfs.namenode.safemode.min.datanodes
指在退出安全模式之前必须存活的DataNode数量，默认0
dfs.namenode.safemode.extension
达到阈值条件后持续扩展的时间。倒计时结束如果依然满足阈值条件，自动离开安全模式。默认30000毫秒

手动获取安全模式信息