数据迁移场景
- 冷热集群数据同步、分类存储
- 集群数据整体迁移
- 准实时同步
- 双备份
- 线上把集群切向B的同步集群
要素考量
- bandwdith
- performance
1… 单机?分布式? - data-increment
- 可以配合HDFS快照等技术实现增量数据同步。
- syncable .数据指定周期内未完成同步,下一周期开始,无法做到 准实时一致性
DistCp
数据迁移,定期在集群之间、内部备份数据 —— 性能相对慢。
使用MapReduce在群集之间或并行在同一群集内复制文件
- 构建复制的文件列表 —— 复制列表
- 运行MR作业来复制文件,复制列表为输入
DistCp又是特性 - bandwidth限流,防止数据占用大量bandwidth性能下降
- DistCp使用update,append,diff三个参数增量同步
name | function |
---|---|
update | 拷贝不存在的文件目录 —— 新增文件。目录同步 |
Append | 追加写路径已存在的文件 |
Diff | 快照的Diff对比信息同步源路径和目标路径(删除 重命名) |
安全模式
hdfs的safe mode是NameNode维护状态,该模式下NameNode不能更改
- 从fsimage和edits日志文件加载文件系统状态
- 等待DN汇报可用的block信息,在此期间,NN保持在安全模式。
- 系统大胆安全标准,HDFS自动离开安全模式
阶段
DFS集群启动,NN启动成功,集群进入安全模式
离开:
dfs.replication hdfs block的副本数据,默认3
dfs.replication.max 最大副本数 512
dfs.namenode.replication.min 最小块副本数,默认1
dfs.namenode.safemode.threshold-pct
已汇报可用数据块数量占整体块数量的百分比阈值。默认0.999f。
小于或等于0,则表示退出安全模式之前,不要等待特定百分比的块。大于1的值将使安全模式永久生效。
dfs.namenode.safemode.min.datanodes
指在退出安全模式之前必须存活的DataNode数量,默认0
dfs.namenode.safemode.extension
达到阈值条件后持续扩展的时间。倒计时结束如果依然满足阈值条件,自动离开安全模式。默认30000毫秒
手动获取安全模式信息
hdfs dfsadmin -safemode get
手动进入安全模式
hdfs dfsadmin -safemode enter
对于集群维护或者升级的时候使用,只读文章来源:https://www.toymoban.com/news/detail-533103.html
手动离开安全模式文章来源地址https://www.toymoban.com/news/detail-533103.html
hdfs dfsadmin -safemode leave
到了这里,关于hadoop生态圈-- 个人笔记学习04 数据迁移的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!