spring boot 集成spark操作hive

9月前作者：、小H 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了spring boot 集成spark操作hive。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在Spring Boot中集成Spark操作Hive，可以使用以下步骤：

确认系统中已经安装了Hadoop和Spark，并且配置好了环境变量。
在pom.xml文件中添加以下依赖：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.4.5</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.4.5</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.4.5</version>
</dependency>

配置Spark和Hive连接信息：

@Configuration
public class SparkHiveConfig {

    @Value("${hive.metastore.uris}")
    private String hiveMetastoreUris;

    @Bean
    public SparkSession sparkSession() {
        return SparkSession.builder()
                .appName("Spark Hive Example")
                .config("hive.metastore.uris", hiveMetastoreUris)
                .enableHiveSupport()
                .getOrCreate();
    }
}

上面的配置中，hive.metastore.uris是Hive的元数据存储地址。

编写代码进行Hive操作。例如，查询Hive表数据：

@Autowired
private SparkSession sparkSession;

public void queryHiveTable() {
    Dataset<Row> result = sparkSession.sql("SELECT * FROM my_table");
    result.show();
}

其中，my_table是Hive中已经创建的表。文章来源地址https://www.toymoban.com/news/detail-549178.html

运行Spring Boot工程，通过浏览器或其他方式访问查询操作的接口。

到了这里，关于spring boot 集成spark操作hive的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

在Spring Boot微服务集成spring-kafka操作Kafka集群

记录：461 场景：在Spring Boot微服务集成spring-kafka-2.8.2操作Kafka集群。使用KafkaTemplate操作Kafka集群的生产者Producer。使用@KafkaListener操作Kafka集群的消费者Consumer。版本：JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,spring-kafka-2.8.2。 Kafka集群安装：https://blog.csdn.net/zhangbeizhen18/article/details

2024年02月10日
浏览(52)
在Spring Boot微服务集成Kafka客户端(spring-kafka)操作Kafka

记录：457 场景：在Spring Boot微服务集成Kafka客户端spring-kafka-2.8.2操作Kafka。使用Spring封装的KafkaTemplate操作Kafka生产者Producer。使用Spring封装的@KafkaListener操作Kafka的消费者Consumer。版本：JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,spring-kafka-2.8.2。 Kafka安装：https://blog.csdn.net/zhangbeizhen1

2024年02月09日
浏览(61)
在Spring Boot微服务集成kafka-clients操作Kafka集群

记录：463 场景：在Spring Boot微服务集成kafka-clients-3.0.0操作Kafka集群。使用kafka-clients的原生KafkaProducer操作Kafka集群生产者Producer。使用kafka-clients的原生KafkaConsumer操作Kafka集群的消费者Consumer。版本：JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,kafka-clients-3.0.0。 Kafka集群安装：https://bl

2024年02月09日
浏览(52)
Spark面试整理-Spark集成Hive

Apache Spark与Apache Hive的集成使得Spark能够直接对存储在Hive中的数据进行读取、处理和分析。这种集成利用了Spark的高性能计算能力和Hive的数据仓库功能。以下是Spark集成Hive的关键方面： 1. 启用Hive支持要在Spark中使用Hive，需要确保Spark编译时包含了对Hive的支持。在使用Spar

2024年04月22日
浏览(35)
大数据技术（入门篇）--- 使用Spring Boot 操作 CDH6.2.0 Spark SQL进行离线计算

CDH 6.2.0 搭建的环境，并不能直接使用 spark 相关资源，需要对此服务端环境进行一些修改 Spark 目前仅支持 JDK1.8, Java项目运行环境只能使用JDK 1.8 我这里使用的是 CDH6.2.0集群，因此使用的依赖为CDH专用依赖，需要先添加仓库 spark 使用scala 语言编写，因此项目中使用的scala依赖版

2024年02月08日
浏览(87)
在Spring Boot微服务集成Kafka客户端(kafka-clients)操作Kafka

记录：459 场景：在Spring Boot微服务集成Kafka客户端kafka-clients-3.0.0操作Kafka。使用kafka-clients的原生KafkaProducer操作Kafka生产者Producer。使用kafka-clients的原生KafkaConsumer操作Kafka的消费者Consumer。版本：JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,kafka-clients-3.0.0。 Kafka安装：https://blog.csdn.ne

2024年02月12日
浏览(52)
apache atlas与hive、hbase、spark的集成

Atlas 的使用相对简单，其主要工作是同步各服务（主要是 Hive）的元数据，并构建元数据实体之间的关联关系，然后对所存储的元数据建立索引，最终未用户提供数据血缘查看及元数据检索等功能。 Atlas 在安装之初，需手动执行一次元数据的全量导入，后续 Atlas 便会利用 H

2024年02月11日
浏览(51)
04_Hudi 集成 Spark、保存数据至Hudi、集成Hive查询、MergeInto 语句

本文来自\\\"黑马程序员\\\"hudi课程 4.第四章 Hudi 集成 Spark 4.1 环境准备 4.1.1 安装MySQL 5.7.31 4.1.2 安装Hive 2.1 4.1.3 安装Zookeeper 3.4.6 4.1.4 安装Kafka 2.4.1 4.2 滴滴运营分析 4.2.1 需求说明 4.2.2 环境准备 4.2.2.1 工具类SparkUtils 4.2.2.2 日期转换星期 4.2.3 数据ETL保存 4.2.3.1 开发步骤 4.2.3.2 加载CS

2024年02月13日
浏览(48)
Spring Boot进阶(69)：轻松实现定时任务持久化！SpringBoot集成quartz带你玩转定时任务删除、暂停、获取等操作！【附项目源码】

现如今，随着市场竞争加剧，各个企业都在不断寻求提高效率、降低成本的方法，此时使用自动化工具已成为必不可少的选择。而在众多的自动化工具中，定时任务已经成为一项必备工具，而Quartz就是一个非常好用的定时任务框架，它的轻量级、高可靠性、易于使

2024年02月09日
浏览(60)
Spark操作Hive表幂等性探索

旁边的实习生一边敲着键盘一边很不开心的说：做数据开发真麻烦，数据bug排查太繁琐了，我今天数据跑的有问题，等我处理完问题重新跑了代码，发现报表的数据很多重复，准备全部删了重新跑。我：你的数据操作具备幂等性吗？实习生：啥是幂等性？数仓中的表还要考

2024年02月13日
浏览(40)