在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

9月前作者：　Laurence 分类：Toy博客阅读(70) 违法举报

这篇具有很好参考价值的文章主要介绍了在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在上一篇文章：《在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）》中，我们介绍了如何使用 hive-testbench 在Hive/Spark上执行TPC-DS基准测试，同时也指出了该项目不支持parquet格式。

如果我们想要生成parquet格式的测试数据，就需要使用其他工具了。本文选择使用另外一个开源项目：https://github.com/kcheeeung/hive-benchmark，它和 hive-testbench 项目非常接近，操作方法也很类似，如果你熟悉 hive-testbench，应该会必要容易掌握这个工具。

备注：本文使用的Hive/Spark环境为AWS EMR，版本：6.11，未启用Glue Data Catalog。本文操作须在EMR Master节点上执行！因为脚本中会使用到hdfs、beeline等命令行工具，此外，经测试发现：如果EMR集群使用的是Glue Data Catalog，脚本执行过程中将会报错：

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）,付费专栏,hive,spark,TPC-DS,benchmark,测试文章来源地址https://www.toymoban.com/news/detail-657710.html

到了这里，关于在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Hive数据存储格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别？为什么绝大多数都使用ORCFile、Parquet格式？

Hive 的数据存储，是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式，即使在不改变当前 Hive SQL 的情况下，性能也能得到数量级的提升。这种优化方式对 MySQL 等关系型数据库有些类似，选择不同的数据存储引擎，代表着不同的数据组织方式，对于数据库的表现

2024年02月02日
浏览(59)
【SparkSQL】SparkSQL的运行流程 & Spark On Hive & 分布式SQL执行引擎

【大家好，我是爱干饭的猿，本文重点介绍、SparkSQL的运行流程、 SparkSQL的自动优化、Catalyst优化器、SparkSQL的执行流程、Spark On Hive原理配置、分布式SQL执行引擎概念、代码JDBC连接。后续会继续分享其他重要知识点总结，如果喜欢这篇文章，点个赞👍，关注一下吧】上一篇

2024年02月04日
浏览(48)
13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践：执行效率提升50%以上

13.108.Spark 优化 1.1.25.Spark优化与hive的区别 1.1.26.SparkSQL启动参数调优 1.1.27.四川任务优化实践：执行效率提升50%以上 1.1.25.Spark优化与hive的区别先理解spark与mapreduce的本质区别，算子之间（map和reduce之间多了依赖关系判断，即宽依赖和窄依赖。）优化的思路和hive基本一致，比较

2024年02月10日
浏览(56)
Parquet文件格式问答

Parquet文件格式是一种列式存储格式，用于在大数据生态系统中存储和处理大规模数据。它由Apache Parquet项目开发和维护，是一种开放的、跨平台的数据存储格式。 Parquet文件格式采用了一种高效的压缩和编码方式，可以在压缩和解压缩时利用数据的局部性和重复性，从而达到

2024年02月04日
浏览(47)
python导出数据为parquet格式

import duckdb import pandas as pd from sqlalchemy import create_engine # 定义连接到您的 MySQL 或 PostgreSQL 数据库的参数 db_type = \\\'mysql\\\' # 或 \\\'postgresql\\\' user = \\\'your_username\\\' password = \\\'your_password\\\' host = \\\'your_host\\\' port = \\\'your_port\\\' database = \\\'your_database\\\' table_name = \\\'your_table\\\' # 创建 SQLAlchemy 引擎 if db_type == \\\'mys

2024年01月25日
浏览(48)
用sqoop导出hive parquet 分区表到mysql

确保你已经安装并配置好了Sqoop工具，并且可以连接到Hadoop集群和MySQL数据库。创建一个MySQL表来存储导出的数据。请确保MySQL表的结构与Hive Parquet分区表的结构匹配。使用Sqoop的export命令来执行导出操作。以下是一个示例命令：替换 mysql_host、database_name、mysql_username 和 mysq

2024年02月14日
浏览(41)
将Parquet文件的数据导入Hive 、JSON文件导入ES

主要利用社区工具 https://github.com/apache/parquet-mr/ 编译cli工具查看元数据信息查询抽样数据 parquet 和 hive 的 field 类型映射关系 parquet 字段类型 hive 字段类型 BINARY STRING BOOLEAN BOOLEAN DOUBLE DOUBLE FLOAT FLOAT INT32 INT INT64 BIGINT INT96 TIMESTAMP BINARY + OriginalType UTF8 STRING BINARY + OriginalType DECI

2024年02月08日
浏览(50)
大数据_Hadoop_Parquet数据格式详解

之前有面试官问到了parquet的数据格式，下面对这种格式做一个详细的解读。参考链接：列存储格式Parquet浅析 - 简书 Parquet 文件结构与优势_parquet文件_KK架构的博客-CSDN博客 Parquet文件格式解析_parquet.block.size_david\\\'fantasy的博客-CSDN博客行组(Row Group) 按照行将数据物理上划分为

2024年02月14日
浏览(42)
Spark On Hive配置测试及分布式SQL ThriftServer配置

Spark本身是一个执行引擎，而没有管理metadate的能力，当我们在执行SQL的时候只能将SQL转化为RDD提交。而对于一些数据中的元数据Spark并不知道，而Spark能写SQL主要是通过DataFrame进行注册的。这时候我们就可以借助Hive中的MetaStore进行元数据管理。也就是说把Hive中的metastore服务

2024年01月21日
浏览(46)
使用TPC-H 进行GreatSQL并行查询测试

GreatSQL-8.0.25-17 使用 TPC-H 生成数据启动数据库后，可以检查配置是否生效并行查询相关参数启动数据库：本次的工作在/data/tpch 可执行程序为dbgen,依赖一个数据分布文件dists.dss。可以将dbgen和dists.dss拷贝到同一目录使用 dss.ddl 和 dss.ri 文件准备表结构和索引文件 dss.ddl 和 d

2024年02月02日
浏览(81)