【Hadoop-Distcp】工具简介及参数说明

这篇具有很好参考价值的文章主要介绍了【Hadoop-Distcp】工具简介及参数说明。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1)概述

Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用 Map/Reduce 实现文件分发,错误处理和恢复,以及报告生成。

Distcp 把文件和目录的列表作为 map 任务的输入,每个任务会完成源列表中部分文件的拷贝。

在默认情况下, Distcp 会跳过目标路径下已经存在的文件。

官网地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html

2)适合的场景及其有点

1、适合场景:

数据异地灾,机房下线,数据迁移等。

2、优点:

① 可以限制带宽,使用 bandwidth 参数对 distcp 的每个 map 任务限流,同时控制 map 并发数量即可控制整个拷贝任务的带宽,防止拷贝任务将带宽打满,影响其它业务。

② 支持 overwrite(覆盖写,无条件覆盖目标文件,即使它们存在),update(增量写,如果 dest 文件的名称和大小与 src 文件不同,则覆盖;若目的文件大小和名称与源文件相同则跳过),delete(删除写,删除 dest 中存在的文件,但在 src 中不存在)等多种源和目的校验的拷贝方式,大量数据的拷贝必然要做到数据拷贝过程中的校验,来保证源和目的数据的一致性。

3)参数说明

此参数为Hadoop2.x版本文章来源地址https://www.toymoban.com/news/detail-520442.html

  • -append:重用目标文件中的现有数据,并在可能的情况下添加新数据,新增进去而不是覆盖它。
  • -async:是否应该阻塞 distcp 执行。
  • -atomic:提交所有更改或不提交更改。
  • -bandwidth <arg>:以 MB/second 为单位指定每个 map 的带宽。
  • -delete:删除目标文件中存在的文件,但在源文件中不存在,走 HDFS 垃圾回收站。
  • -diff <arg>:使用 snapshot diff 报告来标识源和目标之间的差异。
  • -f <arg>:需要复制的文件列表。
  • -filelimit <arg>:(已弃用!)限制复制到 <=n 的文件数。
  • -filters <arg>:从复制的文件列表中排除。
  • -i:忽略复制过程中的失败。
  • -log <arg>:HDFS 上的 distcp 执行日志文件夹保存。
  • -m <arg>:限制同步启动的 map 数,默认每个文件对应一个 map,每台机器最多启动20个 map。
  • -mapredSslConf <arg>:配置ssl配置文件。
  • -numListstatusThreads <arg>:用于构建文件清单的线程数(最多40个),当文件目录结构复杂时应该适当增大该值。
  • -overwrite:选择无条件覆盖目标文件,即使它们存在。
  • -p <arg>:保留源文件状态(rbugpcaxt)(复制,块大小,用户,组,权限,校验和类型,ACL,XATTR,时间戳)
  • -sizelimit <arg>:(已弃用!)限制复制到 <=n 的文件数字节。
  • -skipcrccheck:是否跳过源和目标路径之间的 CRC 检查。
  • -strategy <arg>:选择复制策略,默认值 uniformsize,每个 map 复制的文件总大小均衡;可以设置为 dynamic,使更快的 map 复制更多的文件,以提高性能。
  • -tmp: 要用于原子的中间工作路径承诺。
  • -update:检查的标准是源和目标文件大小、块大小和校验和;如果它们不同,源文件将替换目标文件,反之则跳过。
  • -mapred : 用于指定 distcp 使用的 MapReduce 配置文件,如果不指定则使用默认的 Hadoop 配置。可以在此处指定例如 -D mapreduce.job.reduce.slowstart.completedmaps=0.5 等特定的配置选项。
  • -pb : 用于指定内部缓冲区的大小。默认大小为 4 MB。
  • -simulate: 用于模拟复制操作,而不是实际进行复制。如果需要测试 distcp 的性能,可以使用此选项。
  • -async: 用于启用异步文件系统操作。启用此选项可以提高复制效率,但可能会降低数据可靠性。
  • -direct: 用于启用 NIO 直接缓冲模式进行文件 I/O。启用此选项可以提高复制效率。

到了这里,关于【Hadoop-Distcp】工具简介及参数说明的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop 01】简介

    目录 1 Hadoop 简介 2 下载并配置Hadoop 2.1 修改/etc/profile 2.2 修改hadoop-env.sh 2.3 修改core-site.xml 2.4 修改hdfs-site.xml 2.5 修改mapred-site.xml 2.6 修改yarn-site.xml 2.7 修改workers 2.8 修改start-dfs.sh、stop-dfs.sh 2.9 修改start-yarn.sh、stop-yarn.sh 2.10 启动集群 3 HDFS 3.1 HDFS常见shell操作 3.2 HDFS实操案例 3.

    2024年02月16日
    浏览(33)
  • Hadoop 简介

    Hadoop 是一个提供分布式存储和计算的开源软件框架,它具有无共享、高可用(HA)、弹性可扩展的特点,非常适合处理海量数量。 Hadoop 是一个开源软件框架 Hadoop 适合处理大规模数据 Hadoop 被部署在一个可扩展的集群服务器上 HDFS (分布式文件系统) -—— 实现将文件分布式

    2023年04月09日
    浏览(26)
  • hadoop简介

    大数据(big data):指无法在一定时间范围内用常规工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。 高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储

    2024年02月11日
    浏览(34)
  • Hadoop RPC简介

    数新网络-让每个人享受数据的价值 https://www.datacyber.com/ RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,

    2024年02月06日
    浏览(40)
  • hadoop之MapReduce简介

    MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 简单说MapReduce是一个框架,一个分布式计算框架,

    2024年02月04日
    浏览(53)
  • 大数据hadoop生态技术简介

    Hadoop 生态是指围绕 Hadoop 大数据处理平台形成的一系列开源软件和工具,用于支持大规模数据处理、存储、管理、分析和可视化等应用场景。暂时将其核心技术分为9类:  数据采集技术框架: Flume、Logstash、FileBeat;Sqoop和Datax; Cannal和Maxwell 数据存储技术框架:  HDFS、HBas

    2024年02月09日
    浏览(44)
  • Hadoop简介、安装与环境变量配置

    Hadoop是由Apache基金会开源的具有可靠、可扩展、分布式计算的大数据框架。Hadoop可以简单的从单个服务器扩展到数千台机器,提供分布式的计算和存储服务。Hadoop通过检测和处理应用程序层的故障来为服务器集群提供高可用性服务。 Hadoop作为大数据框架,更多的是作为集群面

    2024年02月09日
    浏览(46)
  • 分布式计算平台 Hadoop 简介

    Hadoop是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。其主要采用MapReduce分布式计算框架,包括根据GFS原理开发的分布式文件系统HDFS、根据BigTable原理开发的数据存储系统HBase以及

    2024年02月01日
    浏览(61)
  • Hadoop简介以及集群搭建详细过程

    hadoop加群包括两个集群:hdfs集群,yarn集群 两个集群逻辑上分离,通常物理上在一起 两个集群都是标准的主从架构集群 逻辑上分离:两个集群相互之间没有依赖,互不影响 物理上在一起:某些角色今晚往往部署在同一台物理服务器上 MapReduce集群呢? MapReduce是计算框架、代

    2024年02月16日
    浏览(43)
  • Hadoop MapReduce 调优参数

    前言: 下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核, 4G 内存。 MapReduce 调优参数详解 这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。 默认值: 5 建议配置: 10 定义了在 Reduce 阶段输

    2024年02月10日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包