在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）

1年前作者：　Laurence分类：Toy博客阅读(16)违法举报

这篇具有很好参考价值的文章主要介绍了在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

《大数据平台架构与原型实现：数据中台建设实战》一书由博主历时三年精心创作，现已通过知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。

目前，在Hive/Spark上运行TPC-DS Benchmark主要是通过早期由Hortonworks维护的一个项目：hive-testbench 来完成的。本文我们以该项目为基础介绍一下具体的操作步骤。不过，该项目仅支持生成ORC和TEXT格式的数据，如果需要Parquet格式，请参考此文：《在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）》。文章来源地址https://www.toymoban.com/news/detail-656320.html

到了这里，关于在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark on Hive及 Spark SQL的运行机制
代码中集成Hive： Spark SQL底层依然运行的是Spark RDD的程序，所以说Spark RDD程序的运行的流程，在Spark SQL中依然是存在的，只不过在这个流程的基础上增加了从SQL翻译为RDD的过程 Spark SQL的运行机制，其实就是在描述如何将Spark SQL翻译为RDD程序 Catalyst内部具体的执行流程：专业术
2024年01月23日
浏览(7)
Dhrystone基准测试程序在Google Pixel4上运行跑分教程
记录一下实验过程，方便后续回顾 Dhrystone是测量处理器运算能力的最常见基准程序之一，常用于处理器的整型运算性能的测量。程序是用C语言编写的，因此C编译器的编译效率对测试结果也有很大影响。但其也有许多不足，Dhrystone不仅不适合于作为嵌入式系统的测试向量，甚
2024年02月12日
浏览(5)
hive文件存储格式orc和parquet详解
hive支持的文件类型：textfile、sequencefile（二进制序列化文件）、rcfile（行列式文件）、parquet、orcfile（优化的行列式文件）带有描述式的行列式存储文件。将数据分组切分，一组包含很多行，每一行再按例进行存储。 orc文件结合了行式和列式存储结构的优点，在有大数据量扫
2024年02月03日
浏览(13)
使用hive查看orc文件 orcfiledump命令详解异常处理(Failed to read ORC file)
列式存储以orc和parquet文件居多，现阶段hive数据存储的主流格式是orc，然后结合presto(目前对orc的支持好于parquet)做一些即席查询。hive数据文件是直接存储在hdfs上，但是hadoop貌似没有提供直接查看文本的命令，好在hive提供了支持。 1. 命令帮助： hive --service orcfiledump --help 2. 数
2024年02月16日
浏览(13)
13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践：执行效率提升50%以上
13.108.Spark 优化 1.1.25.Spark优化与hive的区别 1.1.26.SparkSQL启动参数调优 1.1.27.四川任务优化实践：执行效率提升50%以上 1.1.25.Spark优化与hive的区别先理解spark与mapreduce的本质区别，算子之间（map和reduce之间多了依赖关系判断，即宽依赖和窄依赖。）优化的思路和hive基本一致，比较
2024年02月10日
浏览(35)
HIVE表数据快速构造（分区表、orc、text）
引言当需要在hive数仓中去创建测试表并构造测试数据时，通常需要在安装了hive客户端的服务器环境下，通过执行命令的方式建表。通过在HDFS上上传和加载数据文件的方式来加载数据到hive表中。其中操作算不得多复杂，但比较依赖对环境和命令的熟悉，并且操作不够可视化
2024年02月16日
浏览(13)
Spark On Hive配置测试及分布式SQL ThriftServer配置
Spark本身是一个执行引擎，而没有管理metadate的能力，当我们在执行SQL的时候只能将SQL转化为RDD提交。而对于一些数据中的元数据Spark并不知道，而Spark能写SQL主要是通过DataFrame进行注册的。这时候我们就可以借助Hive中的MetaStore进行元数据管理。也就是说把Hive中的metastore服务
2024年01月21日
浏览(10)
1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（二）
本文通过在hdfs中三种不同数据格式文件存储相同数量的数据，通过hive和impala两种客户端查询进行比较。本文前提：熟悉hadoop、hive和impala、kafka、flink等，并且其环境都可正常使用。（在后续的专栏中都会将对应的内容补全，目前已经完成了zookeeper和hadoop的部分。）本文分为
2024年02月12日
浏览(9)
使用TPC-H 进行GreatSQL并行查询测试
GreatSQL-8.0.25-17 使用 TPC-H 生成数据启动数据库后，可以检查配置是否生效并行查询相关参数启动数据库：本次的工作在/data/tpch 可执行程序为dbgen,依赖一个数据分布文件dists.dss。可以将dbgen和dists.dss拷贝到同一目录使用 dss.ddl 和 dss.ri 文件准备表结构和索引文件 dss.ddl 和 d
2024年02月02日
浏览(11)
CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程
注意：需要使用官网提供的jdk。 1.1 在hadoop101的/opt目录下创建module 1.2 上传oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安装 1.3 分发注意：分发脚本在附录里面的分发脚本集群ssh脚本在附录里面的编写集群ssh脚本执行sshall脚本结果如下注意：一定要用root用户操作如下步骤；先卸载
2024年02月16日
浏览(16)