Spark集成ClickHouse(笔记)

这篇具有很好参考价值的文章主要介绍了Spark集成ClickHouse(笔记)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言:

 一.配置环境

1.安装clickhouse驱动

2.配置clickhouse环境

二.spark 集成clickhouse

 直接上代码,里面有一些注释哦!

 


前言:

在大数据处理和分析领域,Spark 是一个非常强大且广泛使用的开源分布式计算框架。而 ClickHouse 则是一个高性能、可扩展的列式数据库,特别适合用于实时分析和查询大规模数据。将 Spark 与 ClickHouse 集成可以充分发挥它们各自的优势,使得数据处理和分析更加高效和灵活。


 一.配置环境

1.安装clickhouse驱动

在idea中的maven中安装依赖包

<dependency>
        <groupId>ru.yandex.clickhouse</groupId>
        <artifactId>clickhouse-jdbc</artifactId>
        <version>0.3.1</version>
    </dependency>

2.配置clickhouse环境

(未安装clickhouse可参考文章:安装配置clickhouse)

修改clickhouse配置文件,使其可以远程连接

进入目录:cd   /etc/clickhouse-server/

Spark集成ClickHouse(笔记),spark,spark,clickhouse,笔记

 编辑 config.xml,将listen_host注释打开,一般是注释状态!

Spark集成ClickHouse(笔记),spark,spark,clickhouse,笔记

二.spark 集成clickhouse

 直接上代码,里面有一些注释哦!

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.{avg, broadcast, col, month, to_timestamp, when, year}

object DomeThree {
  def main(args: Array[String]): Unit = {
//new spark
val conf = new SparkConf().setMaster("local[*]").setAppName("three")
  .set("spark_testing_memory", "2222222222").set("dfs.client.use.datanode.hostname", "root") //设置spark运行容量 和 dfs的用户
System.setProperty("HADOOP_USER_NAME","root")
    // 创建SparkSession(根据自己需求配置)
    val sc = new SparkSession.Builder() 
      .config("hive.metastore.uris", "thrift://192.168.23.xx:9083")
      .config("hive.metastore.warehouse", "hdfs://192.168.23.xx://9000/user/hive/warehouse")
      .config("spark.sql.storeAssignmentPolicy", "LEGACY")
      .config(conf)
      .enableHiveSupport()
      .getOrCreate()
//    以jdbc为连接方式进行连接
    val frame = sc.read.format("jdbc")
      .option("driver","ru.yandex.clickhouse.ClickHouseDriver" )//      配置driver
      .option("url", "jdbc:clickhouse://192.168.23.xx:8123")   //       配置url
      .option("user", "default")                              
      .option("password", "123456")
      .option("dbtable", "shtd_result.cityavgcmpprovince")
      .load()

      frame.show()                    //查看表格
}
}

控制台打印(因为建的是空表模拟数据的)

Spark集成ClickHouse(笔记),spark,spark,clickhouse,笔记文章来源地址https://www.toymoban.com/news/detail-729730.html

到了这里,关于Spark集成ClickHouse(笔记)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

    目录 PostgreSQL 创建一张表 实施细节 用法示例 资料分享 系列文章 clickhouse系列文章 PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询. 表结构可以与 PostgreSQL 源表结构不同: 列名应与 PostgreSQL 源表中的列名相同,但您可以按任何顺序使用

    2024年02月03日
    浏览(41)
  • ClickHouse(18)ClickHouse集成ODBC表引擎详细解析

    目录 创建表 用法示例 资料分享 系列文章 clickhouse系列文章 ODBC集成表引擎使得ClickHouse可以通过ODBC方式连接到外部数据库. 为了安全地实现 ODBC 连接,ClickHouse 使用了一个独立程序 clickhouse-odbc-bridge . 如果ODBC驱动程序是直接从 clickhouse-server 中加载的,那么驱动问题可能会导致

    2024年02月04日
    浏览(40)
  • ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

    目录 Kafka表集成引擎 配置 Kerberos 支持 虚拟列 资料分享 系列文章 clickhouse系列文章 此引擎与Apache Kafka结合使用。 Kafka 特性: 发布或者订阅数据流。 容错存储机制。 处理流数据。 老版Kafka集成表引擎参数格式: 新版Kafka集成表引擎参数格式: 必要参数: kafka_broker_list – 以

    2024年02月02日
    浏览(41)
  • ClickHouse(17)ClickHouse集成JDBC表引擎详细解析

    目录 JDBC 建表 用法示例 JDBC表函数 资料分享 系列文章 clickhouse系列文章 允许CH通过JDBC连接到外部数据库。 要实现JDBC连接,CH需要使用以后台进程运行的程序 clickhouse-jdbc-bridge。 该引擎支持Nullable数据类型。 引擎参数 datasource_uri — 外部DBMS的URI或名字. URI格式: jdbc:driver_name:

    2024年02月05日
    浏览(46)
  • ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

    MySQL引擎可以对存在远程MySQL服务器上的数据执行 SELECT 查询。 调用格式: 调用参数 host:port — MySQL 服务器地址。 database — 数据库的名称。 table — 表名称。 user — 数据库用户。 password — 用户密码。 replace_query — 将 INSERT INTO 查询是否替换为 REPLACE INTO 的标志。如果 replace

    2024年02月19日
    浏览(37)
  • ClickHouse(19)ClickHouse集成Hive表引擎详细解析

    目录 Hive集成表引擎 创建表 使用示例 如何使用HDFS文件系统的本地缓存 查询 ORC 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表 查询 Parquest 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表 查询文本输入格式的Hive表 在Hive 中建表 在 ClickHouse 中建表 资料分享 系列文章

    2024年02月04日
    浏览(47)
  • ClickHouse与ApacheSpark集成

    ClickHouse 是一个高性能的列式数据库,主要用于实时数据处理和分析。它具有快速的查询速度、高吞吐量和易于扩展等特点。Apache Spark 是一个开源的大数据处理框架,它提供了一个易用的编程模型,可以处理批量数据和流式数据。 在现代数据科学和大数据处理中,ClickHouse 和

    2024年02月19日
    浏览(26)
  • ClickHouse与ApacheKafka的集成

    ClickHouse 是一个高性能的列式数据库,主要用于实时数据分析和报告。它具有高速查询、高吞吐量和低延迟等优势。Apache Kafka 是一个分布式流处理平台,用于构建实时数据流管道和流处理应用。在现代数据技术中,ClickHouse 和 Kafka 常常被用于构建实时数据分析系统。 本文将介

    2024年02月20日
    浏览(23)
  • Spring Boot集成JPA和ClickHouse数据库

    Spring Boot是一个用于创建独立的、基于Spring的应用程序的框架。它具有快速开发特性,可以大大减少开发人员的工作量。JPA(Java Persistence API)是Java中处理关系型数据库持久化的标准规范,而ClickHouse是一个高性能、分布式的列式数据库。 本文将介绍如何在Spring Boot项目中集成

    2024年02月09日
    浏览(53)
  • ClickHouse学习笔记(六):ClickHouse物化视图使用

    ClickHouse 的物化视图是一种查询结果的持久化,它的存在是为了带来查询效率的提升。用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select

    2024年01月17日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包