Hibench对大数据平台CDH/HDP基准性能测试

这篇具有很好参考价值的文章主要介绍了Hibench对大数据平台CDH/HDP基准性能测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、部署方式

1.1、源码/包:https://github.com/Intel-bigdata/HiBench

部署方法:

https://github.com/Intel-bigdata/HiBench/blob/master/docs/build-hibench.md

注意:hibench执行需hadoop客户端jar包环境

如何使用HiBench进行基准测试说明:
https://cloud.tencent.com/developer/article/1158310

二、目录/文件简介

Hibench对大数据平台CDH/HDP基准性能测试

主要介绍下bin执行文件目录和conf配置文件目录

·2.1配置文件目录--conf

Hibench对大数据平台CDH/HDP基准性能测试

benchmarks.lst 配置需测试项

frameworks.lst 配置测试hadoop或spark

hibench.conf   配置数据量级别及文件数等

hadoop.conf   hadoop home、master等配置项

spark.conf     spark home、master、 Yarn运行核数、内存等配置项

workloads目录 存放各种具体测试项配置文件

·2.2配置文件说明

文件名

主要用途

benchmarks.lst

主要用于配置benchmarks的模块

flink.conf.template

Flink测试的配置参数

frameworks.lst

主要用于配置HiBench支持的测试框架

gearpump.conf.template

gearpump测试相关配置文件

hadoop.conf.template

Hadoop测试相关配置文件

hibench.conf

HiBench配置文件

spark.conf.template

Spark配置文件

storm.conf.template

Strom配置文件

·2.3配置文件说明

··2.3.1. benchmarks.lst配置文件 

  主要用于配置benchmarks列表,配置如下,可以对不需要测试的模块进行屏蔽或者删除,在需要屏蔽在前面加“#”如下:(适用于执行run_all.sh)

Hibench对大数据平台CDH/HDP基准性能测试

··2.3.2.  hadoop.conf.template配置文件

该配置文件主要用于配置Hadoop的环境,如果需要对Hadoopbenchmark测试则需要将该文件重命名为hadoop.conf

编辑hadoop.conf文件,配置Hadoop环境,此处以CDH的目录配置为例,配置如下:

Hibench对大数据平台CDH/HDP基准性能测试

 ··2.3.3.  spark.conf.template配置文件

  主要用于配置Spark的环境及运行参数,如果需要测试Saprk框架则需要将该配置文件重命名为spark.conf

 编辑spark.conf文件,配置Spark的环境,此处以CDH的目录配置为例,配置如下:根据集群环境调整相应参数。

 Hibench对大数据平台CDH/HDP基准性能测试

 ··2.3.4. hibench.conf配置文件

主要配置HiBench的运行参数及HiBench各个模块的home环境配置,根据需要修改相应的配置参数:

主要关注参数hibench.scale.profilehibench.default.map.parallelismhibench.default.shuffle.parallelism配置:

hibench.scale.profile:主要配置HiBench测试的数据规模;

hibench.default.map.parallelism:主要配置MapReduceMapper数量;

hibench.default.shuffle.parallelism:配置Reduce数量;

Hibench对大数据平台CDH/HDP基准性能测试

注意:

# 也是生成的文件数,DFSIOE除外

例如 hibench.default.map.parallelism 10

wordcount.conf配置数据量为10000000字节(10M),10个文件,及每个文件为1M

  三、数据规模说明

HiBench的默认数据规模有:tiny, small, large, huge, gigantic andbigdata,在这几种数据规模之外Fayson还介绍如何自己指定数据量。

·3.1DFSIOE数据规模介绍及自定义

配置文件:${hibench.home}/conf/workloads/micro/dfsioe.conf

Hibench对大数据平台CDH/HDP基准性能测试

 DFSIOE测试用例通过定义读或写的文件数和文件的大小来指定测试数据量的规模,如果需要自定义测试规模则修改文件数和文件的大小即可,文件大小以MB为单位。

例如:我需要自定义一个5TB数量级的DFSIOE测试,在hibench.conf文件中hibench.scale.profile配置的是mybigdata,需要在dfsioe.conf配置文件中增加读写文件数为5120,文件大小设置为1024,具体配置如下:

hibench.dfsioe.mybigdata.read.number_of_files     5120

hibench.dfsioe.mybigdata.read.file_size           1024

hibench.dfsioe.mybigdata.write.number_of_files    5120

hibench.dfsioe.mybigdata.write.file_size          1024

读写测试的数据量均为5TB = 5120 * 1024MB

·3.2举例配置单词统计测试项 数据量大小

Hibench对大数据平台CDH/HDP基准性能测试

 进入/conf/workloads/micro目录下,修改wordcount.conf

Hibench对大数据平台CDH/HDP基准性能测试

 注意:dfsioe单位:MBterasort单位:kb+0(单位安装kb计算然后结尾多加一个0,不要问为什么,实践求真知~),其他测试项单位为:字节。

四、执行文件目录--bin

Hibench对大数据平台CDH/HDP基准性能测试

 方式一:

sh run_all.sh 

通过在conf下文件配置好数据量及测试项,批量执行测试项测试,包含数据准备及运行。

方式二:

1、具体测试某一项,以单词统计举例,准备数据可进入

/bin/workloads/micro/wordcount/prepare/

执行prepare.sh

(可执行命令hadoop fs -du -h /Hibench/Wordcount 查看对应各个用例生成的测试数据及用例结果

删除测试数据:sudo -u hdfs hadoop fs -rm -r /Hibench/Wordcount

 2、运行测试,进入/bin/workloads/micro/wordcount/hadoop/ 执行run.sh

 Hibench对大数据平台CDH/HDP基准性能测试

五、查看报告文件

 Hibench对大数据平台CDH/HDP基准性能测试

进入/report下,查看 hibench.report,其中包含类型、执行日期和时间,数据量,主要关注:持续时间,吞吐量/秒和吞吐量/节点

Hibench对大数据平台CDH/HDP基准性能测试 文章来源地址https://www.toymoban.com/news/detail-746559.html

到了这里,关于Hibench对大数据平台CDH/HDP基准性能测试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【测试开发】单元测试、基准测试和性能分析(以 Go testing 为例)

    你写不出 bug-free 的代码。 你认为自己写出了 bug-free 的代码,但它在你意想不到的地方出错了。 你觉得自己写出了永不出错的代码,但它的性能十分糟糕。 “测试左移”距离真正落地或许还有不短的距离,但在开发过程中注重自己的代码质量,至少养成 写单测 的习惯还是很

    2024年02月04日
    浏览(50)
  • 【精通性能优化:解锁JMH微基准测试】一基本用法

    1. 什么是JMH JMH是Java Micro Benchmark Harness的简写,是专门用于代码微基准测试的工具集。 JMH由实现Java虚拟你的团队开发,现代JVM已经变的越来越智能,在Java文件的编译阶段、类的加载阶段,以及运行阶段都可能进行了不同程度的优化,因此开发者编写的代码未必会像自己所预

    2024年02月12日
    浏览(39)
  • PG DBA培训21:PostgreSQL性能优化之基准测试

    本课程由风哥发布的基于PostgreSQL数据库的系列课程,本课程属于PostgreSQL Performance Benchmarking,学完本课程可以掌握PostgreSQL性能基准测试基础知识,基准测试介绍,基准测试相关指标,TPCC基准测试基础,PostgreSQL测试工具介绍,PostgreSQL性能基准测试案例1之BenchmarkSQL,BenchmarkSQL测试介绍

    2024年01月25日
    浏览(59)
  • POC CPU 单核性能基准测试 Linux bash 下的简单测试用例 bc计算兀

    通过耗时简单评估CPU单核性能

    2024年02月16日
    浏览(44)
  • 性能调优之JMH必知必会3:编写正确的微基准测试用例

      性能调优之JMH必知必会1:什么是JMH 性能调优之JMH必知必会2:JMH的基本用法 性能调优之JMH必知必会4:JMH的高级用法 性能调优之JMH必知必会5:JMH的Profiler       在前面两篇文章中分别介绍了什么是JMH、JMH的基本法。现在来介绍JMH正确的微基准测试用例如何编写。【 单位

    2023年04月08日
    浏览(46)
  • CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

    注意:需要使用官网提供的jdk。 1.1 在hadoop101的/opt目录下创建module 1.2 上传oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安装 1.3 分发 注意:分发脚本在附录里面的分发脚本 集群ssh脚本在附录里面的编写集群ssh脚本 执行sshall脚本结果如下 注意:一定要用root用户操作如下步骤;先卸载

    2024年02月16日
    浏览(54)
  • CDH6.3.2,不互通的cdh平台互导hive数据

    1、先导出所有建表语句,在源CDH服务器命令行输入下面命令,该库下所有建表语句保存至hive目录中的tables.sql文件中,不知道具体路径可以全局搜索一下,拿到源库hive的建表语句后,稍微处理一下,去目标库把表建好。 附加:我自己需要导很多个库,所以写了一行python代码

    2024年01月19日
    浏览(42)
  • 大数据开发之CDH使用搭建大数据平台

    它是Cloudera公司提供的一种大数据平台解决方案。CDH的全称是Cloudera’s Distribution including Apache Hadoop,它是一个开放源代码的大数据平台,基于Apache Hadoop和其他相关的开源技术构建,包括HDFS、MapReduce、HBase、ZooKeeper、Hue、Oozie、Flume、Sqoop等等。 CDH提供了一个完整的大数据解决

    2024年02月09日
    浏览(45)
  • CDH-CM大数据管理平台详解 附CDH离线安装包

    1、大数据时代的数据特点  一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的\\\"4V“。 volume(大量):目前处理的数据量基本为PB、EB级别 velocity(高速):在极短的一段时间内能产出大量数据(秒杀

    2024年02月08日
    浏览(53)
  • 【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标

           本篇博客全站热榜排名: 8 📜 本章目录: 0x00 动态功耗(Dynamic Power) 0x01 集成电路成本(Integrated Circuit Cost) 0x02 基准测试(SPEC CPU Benchmark) 0x03 SPEC功率基准测试(SPEC Power Benchmark) 0x04 Pitfall:Amdahl’s 定律 0x05 Pitfall:将 MIPS 作为性能指标 0x00 动态功耗(Dynamic P

    2024年02月03日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包