Hadoop之mapreduce参数大全-7

这篇具有很好参考价值的文章主要介绍了Hadoop之mapreduce参数大全-7。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

151.设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数

yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts

  • 描述: 该属性指定了客户端与 MapReduce Application Master 之间的IPC连接在发生超时时的最大重试次数。IPC连接用于客户端与 AM 进行通信,例如提交任务、获取任务状态等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端与 AM 之间的IPC连接在发生超时时的最大重试次数为 2 次,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts</name>
      <value>2</value>
    </property>
    

    上述配置将在发生超时时的最大重试次数设置为 2。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对客户端与 AM 之间的通信可靠性产生影响。确保根据你的需求和网络条件来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

152.设置 MapReduce 客户端与 ResourceManager 之间的 IPC(Inter-Process Communication)连接的最大重试次数

yarn.app.mapreduce.client.max-retries 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置 MapReduce 客户端与 ResourceManager 之间的 IPC(Inter-Process Communication)连接的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.max-retries

  • 描述: 该属性指定了 MapReduce 客户端与 ResourceManager 之间的 IPC 连接的最大重试次数。IPC 连接用于客户端提交 MapReduce 任务、获取任务状态等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端与 ResourceManager 之间的 IPC 连接的最大重试次数为 3 次,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.client.max-retries</name>
      <value>3</value>
    </property>
    

    上述配置将最大重试次数设置为 3。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对客户端与 ResourceManager 之间的通信可靠性产生影响。确保根据你的需求和网络条件来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

153.设置 MapReduce 任务的 Application Master 请求的资源量,以指定 Application Master 的内存资源大小

yarn.app.mapreduce.am.resource.mb 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置 MapReduce 任务的 Application Master 请求的资源量,以指定 Application Master 的内存资源大小。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.resource.mb

  • 描述: 该属性指定了 MapReduce Application Master 请求的内存资源量,单位为兆字节(MB)。这是 AM 启动时向 YARN ResourceManager 请求的资源大小。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置 MapReduce Application Master 请求的内存资源为 1024 MB,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.am.resource.mb</name>
      <value>1024</value>
    </property>
    

    上述配置将设置 AM 请求的内存资源为 1024 MB。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的性能和资源分配。确保根据你的任务需求和集群资源来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

154.设置 MapReduce 任务的 Application Master 请求的虚拟内核数量,以指定 Application Master 的 CPU 资源需求

yarn.app.mapreduce.am.resource.cpu-vcores 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置 MapReduce 任务的 Application Master 请求的虚拟内核数量,以指定 Application Master 的 CPU 资源需求。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.resource.cpu-vcores

  • 描述: 该属性指定了 MapReduce Application Master 请求的虚拟内核数量。这是 AM 启动时向 YARN ResourceManager 请求的 CPU 资源数量。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置 MapReduce Application Master 请求的虚拟内核数量为 2,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.am.resource.cpu-vcores</name>
      <value>2</value>
    </property>
    

    上述配置将设置 AM 请求的虚拟内核数量为 2。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的性能和资源分配。确保根据你的任务需求和集群资源来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

155.设置在硬杀(hard kill)操作中,AM 最大的超时时间

yarn.app.mapreduce.am.hard-kill-timeout-ms 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的配置属性之一。该属性用于设置在硬杀(hard kill)操作中,AM 最大的超时时间。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.hard-kill-timeout-ms

  • 描述: 该属性指定了在进行硬杀操作时,AM 允许的最大超时时间。硬杀是指强制终止 AM 进程的操作。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置硬杀操作的最大超时时间为 60000 毫秒(即 60 秒),可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.am.hard-kill-timeout-ms</name>
      <value>60000</value>
    </property>
    

    上述配置将硬杀操作的最大超时时间设置为 60000 毫秒。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的执行和 AM 进程的终止行为。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

156.设置客户端在提交 MapReduce 任务时的最大重试次数

yarn.app.mapreduce.client.job.max-retries 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置客户端在提交 MapReduce 任务时的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.job.max-retries

  • 描述: 该属性指定了客户端在提交 MapReduce 任务时的最大重试次数。如果任务提交失败,客户端将尝试重新提交任务,直到达到最大重试次数。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端在提交 MapReduce 任务时的最大重试次数为 3 次,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.client.job.max-retries</name>
      <value>3</value>
    </property>
    

    上述配置将最大重试次数设置为 3。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对 MapReduce 任务的提交可靠性产生影响。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

157.设置客户端在提交 MapReduce 任务时的重试间隔

yarn.app.mapreduce.client.job.retry-interval 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置客户端在提交 MapReduce 任务时的重试间隔。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.job.retry-interval

  • 描述: 该属性指定了客户端在提交 MapReduce 任务时的重试间隔,即在重试之前等待的时间。如果任务提交失败,客户端将在设定的时间间隔后尝试重新提交任务。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端在提交 MapReduce 任务时的重试间隔为 5000 毫秒(即 5 秒),可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.client.job.retry-interval</name>
      <value>5000</value>
    </property>
    

    上述配置将重试间隔设置为 5000 毫秒。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对 MapReduce 任务的提交可靠性产生影响。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

158.控制 MapReduce 任务提交时是否支持跨平台执行

mapreduce.app-submission.cross-platform 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于控制 MapReduce 任务提交时是否支持跨平台执行。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.app-submission.cross-platform

  • 描述: 该属性控制 MapReduce 任务提交时是否支持跨平台执行。当设置为 true 时,表示允许在不同的操作系统上提交和执行 MapReduce 任务。当设置为 false 时,任务只能在与提交节点相同的操作系统上执行。

  • 默认值: 默认情况下,该属性的值可能是 false,即默认不允许跨平台执行。

  • 示例: 如果你希望允许跨平台执行 MapReduce 任务,可以将该属性设置为 true

    <property>
      <name>mapreduce.app-submission.cross-platform</name>
      <value>true</value>
    </property>
    

    上述配置将允许跨平台执行 MapReduce 任务。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解在特定的环境中是否需要跨平台执行任务,并根据实际需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

159.指定 MapReduce 程序的框架路径,即 MapReduce 作业运行时所需的库和依赖项的路径

mapreduce.application.framework.path 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于指定 MapReduce 程序的框架路径,即 MapReduce 作业运行时所需的库和依赖项的路径。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.application.framework.path

  • 描述: 该属性指定了 MapReduce 程序的框架路径。框架路径通常包含了 MapReduce 程序运行所需的库、依赖项以及其他相关文件。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 MapReduce 程序依赖于特定的库和资源文件,你可以将这些文件放置在某个目录,并将该目录的路径配置到 mapreduce.application.framework.path 中:

    <property>
      <name>mapreduce.application.framework.path</name>
      <value>/path/to/framework</value>
    </property>
    

    上述配置将 mapreduce.application.framework.path 设置为 /path/to/framework

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保根据你的 MapReduce 作业的依赖项和要求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

160.指定 MapReduce 作业的类加载器(ClassLoader)

mapreduce.job.classloader 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于指定 MapReduce 作业的类加载器(ClassLoader)。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.classloader

  • 描述: 该属性指定了 MapReduce 作业使用的类加载器。类加载器用于加载作业的类和依赖项。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望使用特定的类加载器,可以将其配置到 mapreduce.job.classloader 中:

    <property>
      <name>mapreduce.job.classloader</name>
      <value>org.apache.hadoop.mapreduce.v2.app.MRAppClassLoader</value>
    </property>
    

    上述配置将 mapreduce.job.classloader 设置为 org.apache.hadoop.mapreduce.v2.app.MRAppClassLoader

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的类加载需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

161.指定由系统类加载器加载的类列表

mapreduce.job.classloader.system.classes 是 Apache Hadoop MapReduce 中的配置属性之一,用于指定由系统类加载器加载的类列表。系统类加载器是指加载 Java 运行时系统类的加载器。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.classloader.system.classes

  • 描述: 该属性指定了由系统类加载器加载的类的列表。这些类将不受 MapReduce 作业类加载器的影响,而是由系统类加载器加载。这个配置属性的值是一个以逗号分隔的类名列表。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望由系统类加载器加载 com.example.MySystemClassorg.apache.hadoop.mapreduce.* 下的所有类,可以将其配置到 mapreduce.job.classloader.system.classes 中:

    <property>
      <name>mapreduce.job.classloader.system.classes</name>
      <value>com.example.MySystemClass,org.apache.hadoop.mapreduce.*</value>
    </property>
    

    上述配置将由系统类加载器加载的类指定为 com.example.MySystemClassorg.apache.hadoop.mapreduce.* 下的所有类。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的类加载需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

162.指定要记录到任务日志的 JVM 系统属性列表

mapreduce.jvm.system-properties-to-log 是 Apache Hadoop MapReduce 中的配置属性之一,用于指定要记录到任务日志的 JVM 系统属性列表。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jvm.system-properties-to-log

  • 描述: 该属性指定了在任务运行期间要记录到任务日志的 JVM 系统属性列表。这些系统属性将被记录,以便在调试和分析任务问题时提供有用的信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望记录所有的 JVM 系统属性,可以将其配置为 *

    <property>
      <name>mapreduce.jvm.system-properties-to-log</name>
      <value>*</value>
    </property>
    

    上述配置将记录所有的 JVM 系统属性。

    如果你只想记录特定的系统属性,可以列出它们的名称,例如:

    <property>
      <name>mapreduce.jvm.system-properties-to-log</name>
      <value>user.name,hadoop.tmp.dir</value>
    </property>
    

    上述配置将只记录 user.namehadoop.tmp.dir 这两个系统属性。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的调试需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

163.指定 JobHistoryServer 的监听地址

mapreduce.jobhistory.address 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.address

  • 描述: 该属性指定了 JobHistoryServer 监听的网络地址。JobHistoryServer 负责管理和显示已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer 可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer 在特定的主机和端口上监听,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.address</name>
      <value>hostname:port</value>
    </property>
    

    其中 hostname 是 JobHistoryServer 监听的主机名或 IP 地址,port 是端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer 的地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

164.指定 JobHistoryServer Web 应用程序的监听地址

mapreduce.jobhistory.webapp.address 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer Web 应用程序的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.address

  • 描述: 该属性指定了 JobHistoryServer Web 应用程序监听的网络地址。JobHistoryServer Web 应用程序提供了一个用户界面,用于查看和检索已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer Web 应用程序可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer Web 应用程序在特定的主机和端口上监听,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>hostname:port</value>
    </property>
    

    其中 hostname 是 JobHistoryServer Web 应用程序监听的主机名或 IP 地址,port 是端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer Web 应用程序的地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

165.指定启用 HTTPS 的 JobHistoryServer Web 应用程序的监听地址

mapreduce.jobhistory.webapp.https.address 是 Apache Hadoop MapReduce 中的配置属性,用于指定启用 HTTPS 的 JobHistoryServer Web 应用程序的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.https.address

  • 描述: 该属性指定了启用 HTTPS 的 JobHistoryServer Web 应用程序监听的网络地址。JobHistoryServer Web 应用程序提供了一个用户界面,用于查看和检索已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer Web 应用程序可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer Web 应用程序在特定的主机和端口上启用 HTTPS 监听,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.webapp.https.address</name>
      <value>hostname:port</value>
    </property>
    

    其中 hostname 是 JobHistoryServer Web 应用程序启用 HTTPS 监听的主机名或 IP 地址,port 是 HTTPS 端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer Web 应用程序的 HTTPS 地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

166.指定 JobHistoryServer 使用的服务主体对应的 keytab 文件路径

mapreduce.jobhistory.keytab 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 使用的服务主体对应的 keytab 文件路径。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.keytab

  • 描述: 该属性指定了 JobHistoryServer 使用的服务主体对应的 keytab 文件的路径。keytab 文件通常包含了服务主体的密钥信息,用于进行身份验证。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 JobHistoryServer 使用的服务主体是 mapred/_HOST@EXAMPLE.COM,并且对应的 keytab 文件位于 /etc/security/keytabs/mapred.headless.keytab,可以将该属性配置如下:

    <property>
      <name>mapreduce.jobhistory.keytab</name>
      <value>/etc/security/keytabs/mapred.headless.keytab</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的安全配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

167.指定 JobHistoryServer 使用的服务主体

mapreduce.jobhistory.principal 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 使用的服务主体。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.principal

  • 描述: 该属性指定了 JobHistoryServer 使用的服务主体。服务主体通常用于进行身份验证。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 JobHistoryServer 使用的服务主体是 mapred/_HOST@EXAMPLE.COM,可以将该属性配置如下:

    <property>
      <name>mapreduce.jobhistory.principal</name>
      <value>mapred/_HOST@EXAMPLE.COM</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的安全配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

168.指定用于标记作业历史信息中间完成的目录

mapreduce.jobhistory.intermediate-done-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定用于标记作业历史信息中间完成的目录。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.intermediate-done-dir

  • 描述: 该属性指定了 MapReduce 作业历史服务器用于标记作业已经完成的中间目录。这个目录包含一个 “done” 文件,该文件表示作业已经完成,历史服务器可以开始处理该作业的历史信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将中间完成标记文件放置在 /user/history/done_intermediate 目录下,可以将该属性配置如下:

    <property>
      <name>mapreduce.jobhistory.intermediate-done-dir</name>
      <value>/user/history/done_intermediate</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

169.指定用于标记用户作业历史信息中间完成的目录的权限

mapreduce.jobhistory.intermediate-user-done-dir.permissions 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定用于标记用户作业历史信息中间完成的目录的权限。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.intermediate-user-done-dir.permissions

  • 描述: 该属性指定了 MapReduce 作业历史服务器用于标记用户作业已经完成的中间目录的权限。这个目录包含一个 “done” 文件,该文件表示用户作业已经完成,历史服务器可以开始处理该作业的历史信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将中间完成标记文件放置在 /user/history/done_intermediate 目录下,并设置该目录的权限为 750,可以将该属性配置如下:

    <property>
      <name>mapreduce.jobhistory.intermediate-user-done-dir.permissions</name>
      <value>750</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

170.指定是否总是扫描用户目录以查找历史信息

mapreduce.jobhistory.always-scan-user-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否总是扫描用户目录以查找历史信息。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.always-scan-user-dir

  • 描述: 该属性用于控制 JobHistoryServer 是否总是扫描用户目录以查找历史信息。当设置为 true 时,JobHistoryServer 将始终扫描用户目录。当设置为 false 时,JobHistoryServer 只在检测到新的用户目录时才会进行扫描。

  • 默认值: 默认情况下,该属性的值可能是 false,即 JobHistoryServer 可能不总是扫描用户目录。

  • 示例: 如果你希望 JobHistoryServer 总是扫描用户目录以查找历史信息,可以将该属性设置为 true

    <property>
      <name>mapreduce.jobhistory.always-scan-user-dir</name>
      <value>true</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据实际需求和集群环境来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

171.指定 JobHistoryServer 存储已完成作业历史信息的目录

mapreduce.jobhistory.done-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 存储已完成作业历史信息的目录。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.done-dir

  • 描述: 该属性指定了 JobHistoryServer 存储已完成作业历史信息的目录。这个目录包含已经完成的 MapReduce 作业的历史信息,以便用户和管理员可以查看。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将已完成作业历史信息存储在 /user/history/done 目录下,可以将该属性配置如下:

    <property>
      <name>mapreduce.jobhistory.done-dir</name>
      <value>/user/history/done</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

172.指定是否启用 JobHistoryServer 的历史信息清理功能

mapreduce.jobhistory.cleaner.enable 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否启用 JobHistoryServer 的历史信息清理功能。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.cleaner.enable

  • 描述: 该属性用于控制是否启用 JobHistoryServer 的历史信息清理功能。当设置为 true 时,JobHistoryServer 将定期清理过时的历史信息。

  • 默认值: 默认情况下,该属性的值可能是 false,即历史信息清理功能可能处于禁用状态。

  • 示例: 如果你希望启用历史信息清理功能,可以将该属性设置为 true

    <property>
      <name>mapreduce.jobhistory.cleaner.enable</name>
      <value>true</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。启用历史信息清理功能可以帮助管理集群中的历史信息,并释放磁盘空间。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

173.指定 JobHistoryServer 历史信息清理功能运行的时间间隔

mapreduce.jobhistory.cleaner.interval-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 历史信息清理功能运行的时间间隔。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.cleaner.interval-ms

  • 描述: 该属性指定了 JobHistoryServer 历史信息清理功能运行的时间间隔。清理功能将定期检查并删除过时的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,清理功能可能以较长的时间间隔运行。

  • 示例: 如果你希望将清理功能的运行间隔设置为 24 小时,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.cleaner.interval-ms</name>
      <value>86400000</value>
    </property>
    

    上述配置将清理功能的运行间隔设置为 24 小时(24 * 60 * 60 * 1000 毫秒)。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

174.指定历史信息在 JobHistoryServer 中保留的最长时间

mapreduce.jobhistory.max-age-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定历史信息在 JobHistoryServer 中保留的最长时间。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.max-age-ms

  • 描述: 该属性指定了历史信息在 JobHistoryServer 中保留的最长时间。超过此时间的历史信息将被清理。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,历史信息可能会被保留相对较长的时间。

  • 示例: 如果你希望将历史信息的最大保留时间设置为 30 天,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.max-age-ms</name>
      <value>2592000000</value>
    </property>
    

    上述配置将历史信息的最大保留时间设置为 30 天(30 * 24 * 60 * 60 * 1000 毫秒)。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

175.指定 JobHistoryServer 客户端处理请求的线程数量

mapreduce.jobhistory.client.thread-count 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 客户端处理请求的线程数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.client.thread-count

  • 描述: 该属性指定了 JobHistoryServer 客户端处理请求的线程数量。这影响了 JobHistoryServer 能够同时处理的客户端请求的数量。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的线程数量。

  • 示例: 如果你希望将 JobHistoryServer 客户端处理请求的线程数量设置为 50,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.client.thread-count</name>
      <value>50</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。文章来源地址https://www.toymoban.com/news/detail-801913.html

到了这里,关于Hadoop之mapreduce参数大全-7的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据开发之Hadoop(MapReduce)

    MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1.2.1 优点 1、MapReduce易于编程 它简单的实现一些

    2024年01月22日
    浏览(49)
  • 大数据课程D4——hadoop的MapReduce

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解MapReduce的作用和特点; ⚪ 掌握MapReduce的组件; ⚪ 掌握MapReduce的Shuffle; ⚪ 掌握MapReduce的小文件问题; ⚪ 掌握MapReduce的压缩机制; ⚪ 掌握MapReduce的推测执行机制; ⚪ 掌握MapReduce的数据倾斜问题; 1.

    2024年02月15日
    浏览(48)
  • 大数据课程D3——hadoop的MapReduce

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解MapReduce的作用和特点; ⚪ 掌握MapReduce的组件; ⚪ 掌握MapReduce的Shuffle; ⚪ 掌握MapReduce的小文件问题; ⚪ 掌握MapReduce的压缩机制; ⚪ 掌握MapReduce的推测执行机制; ⚪ 掌握MapReduce的数据倾斜问题; 1.

    2024年02月14日
    浏览(44)
  • 大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——MapTask工作机制

    MapTask工作机制如下图所示。 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处

    2023年04月08日
    浏览(66)
  • Hadoop学习:深入解析MapReduce的大数据魔力(三)

    (1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect 收集阶段:在用户编写 map()函数中,当数据处理完成后,一般会调用

    2024年02月12日
    浏览(41)
  • 【大数据】Hadoop_MapReduce➕实操(附详细代码)

    MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一是分布式计算框,就是mapreduce,二者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程 sftp命令:Windows下登录Hadoop102 xftp root@hadoop102 , lcd 切换Windows路径,

    2024年02月01日
    浏览(38)
  • 大数据面试题集锦-Hadoop面试题(三)-MapReduce

    你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下\\\"张飞的猪大数据分享\\\"吧,公众号会不定时的分享相关的知识和资料。 目录 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 2、FileInputForma

    2024年02月11日
    浏览(57)
  • 大数据技术之Hadoop:MapReduce与Yarn概述(六)

    目录 一、分布式计算 二、分布式资源调度 2.1 什么是分布式资源调度 2.2 yarn的架构 2.2.1 核心架构 2.2.2 辅助架构 前面我们提到了Hadoop的三大核心功能:分布式存储、分布式计算和资源调度,分别由Hadoop的三大核心组件可以担任。 即HDFS是分布式存储组件,MapReduce是分布式计算

    2024年02月09日
    浏览(39)
  • Hadoop mapreduce课程设计-全球历史平均气温数据分析

    文章目录 前言 一、工具介绍 二、mapreduce数据处理 1.数据集准备  2.要求:对不同洲的平均温度处理--得到各大洲的平均温度 2.1 mapper阶段 2.2 reduce阶段 2.3 分区 2.4 Driver阶段 3.结果展示  4.将数据放入mongodb数据库 4.1 ktr展示 4.2 mongodb数据展示 ​编辑  5.使用pandas和pyecharts将数据

    2024年02月03日
    浏览(51)
  • Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)

    压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 1)压缩算法对比介绍 2)压缩性能的比较 压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否 可以

    2024年02月12日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包