【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

这篇具有很好参考价值的文章主要介绍了【大数据技术】Spark-SQL如何连接MySQL并进行读写数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【大数据技术】spark SQL如何连接MySQL并读取数据

1、配置连接MySQL的驱动

  • 根据自己安装的MySQL的版本,找到正确的驱动文件,我的是MySQL8.0.19
    所以驱动文件是mysql-connector-java-8.0.19.jar,将其复制到spark目录下的jars文件夹下

my@ubuntu:/usr/local/spark245_h_local/jars$ cp
/home/my/myfolder/mysql-connector-java-8.0.19/mysql-connector-java-8.0.19.jar
.
【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

2、spark-shell里配置MySQL连接信息(含账号密码,默认库等)

例如我想读取MySQL里test库下的cc表,则可进行如下配置:


> val mysql_connect = new java.util.Properties()
> mysql_connect.put("user","root")
> mysql_connect.put("password","123456")
> spark.read.jdbc("jdbc:mysql://ubuntu:3306/test","cc",mysql_connect)

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

3、从MySQL读取数据

spark.read.jdbc("jdbc:mysql://ubuntu:3306/test","cc",mysql_connect)

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

4、写数据到MySQL

  • 与向表test.cc中写入如下数据
    id | name
    -------- | -----
    21| aaa
    22| bbb

> val r1 = sc.parallelize(Array((21,"aaa"),(22,"bbb")))  
> r1.collect

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

  • 此时r1仍为RDD,故需要转换为dataframe才可以进一步操作
	> r1.toDF("id","name")  
	> res6.show()

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

  • 写入到MySQL

r1.toDF("id","name").write.mode("append").jdbc("jdbc:mysql://ubuntu:3306/test","cc",mysql_connect)

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据文章来源地址https://www.toymoban.com/news/detail-478146.html

  • 去MySQL里查看数据
    如红色标注,说明已写入成功
    【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

到了这里,关于【大数据技术】Spark-SQL如何连接MySQL并进行读写数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • spark-sql

    [root@localhost bin]# ./spark-sql Error: Failed to load class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver. Failed to load main class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver. You need to build Spark with -Phive and -Phive-thriftserver. 24/02/22 00:23:20 INFO ShutdownHookManager: Shutdown hook called 24/02/22 00:23:20 INFO Shutd

    2024年02月22日
    浏览(43)
  • Spark-SQL小结

    目录 一、RDD、DataFrame、DataSet的概念、区别联系、相互转换操作   1.RDD概念   2.DataFrame概念   3.DataSet概念   4.RDD、DataFrame、DataSet的区别联系   5.RDD、DataFrame、DataSet的相互转换操作    1 RDD-DataFrame、DataSet    2  DataFrame-RDD,DataSet    3 DataSet-RDD,DataFrame 二、Spark-SQL连接JDBC的方式

    2024年02月09日
    浏览(44)
  • spark-sql字段血缘实现

    Apache Spark是一个开源的大数据处理框架,它提供了一种高效、易于使用的方式来处理大规模数据集。在Spark中,数据是通过DataFrame和Dataset的形式进行操作的,这些数据结构包含了一系列的字段(也称为列)。字段血缘是Spark中的一个关键概念,它帮助我们理解数据的来源和流

    2024年02月02日
    浏览(53)
  • Hudi-集成Spark之spark-sql方式

    启动spark-sql 创建表 建表参数: 参数名 默认值 说明 primaryKey uuid 表的主键名,多个字段用逗号分隔。同 hoodie.datasource.write.recordkey.field preCombineField 表的预合并字段。同 hoodie.datasource.write.precombine.field type cow 创建的表类型: type = ‘cow’ type = \\\'mor’同 hoodie.datasource.write.table.ty

    2024年02月05日
    浏览(47)
  • Spark参数配置和调优,Spark-SQL、Config

    一、Hive-SQL / Spark-SQL参数配置和调优 二、shell脚本spark-submit参数配置 三、sparkSession中配置参数

    2024年02月13日
    浏览(47)
  • Hudi(7):Hudi集成Spark之spark-sql方式

    目录 0. 相关文章链接 1. 创建表 1.1. 启动spark-sql 1.2. 建表参数 1.3. 创建非分区表 1.4. 创建分区表 1.5. 在已有的hudi表上创建新表 1.6. 通过CTAS (Create Table As Select)建表 2. 插入数据 2.1. 向非分区表插入数据 2.2. 向分区表动态分区插入数据 2.3. 向分区表静态分区插入数据 2.4

    2024年02月06日
    浏览(44)
  • spark-sql: insert overwrite分区表问题

    用spark-sql,insert overwrite分区表时发现两个比较麻烦的问题: 从目标表select出来再insert overwrite目标表时报错:Error in query: Cannot overwrite a path that is also being read from. 从其他表select出来再insert overwrite目标表时,其他分区都被删除了. 印象中这两个问题也出现过,但凭经验和感觉,

    2024年02月11日
    浏览(49)
  • spark-sql处理json字符串的常用函数

    整理了spark-sql处理json字符串的几个函数: 1 get_json_object 解析不含数组的 json   2 from_json  解析json 3 schema_of_json 提供生成json格式的方法 4 explode   把JSONArray转为多行 get_json_object(string json_string, string path) :适合最外层为{}的json解析。  第一个参数是json对象变量,也就是含j

    2023年04月08日
    浏览(44)
  • 大数据技术(入门篇)--- 使用Spring Boot 操作 CDH6.2.0 Spark SQL进行离线计算

    CDH 6.2.0 搭建的环境,并不能直接使用 spark 相关资源,需要对此服务端环境进行一些修改 Spark 目前仅支持 JDK1.8, Java项目运行环境只能使用JDK 1.8 我这里使用的是 CDH6.2.0集群,因此使用的依赖为CDH专用依赖,需要先添加仓库 spark 使用scala 语言编写,因此项目中使用的scala依赖版

    2024年02月08日
    浏览(86)
  • 在 spark-sql / spark-shell / hive / beeline 中粘贴 sql、程序脚本时的常见错误

    《大数据平台架构与原型实现:数据中台建设实战》一书由博主历时三年精心创作,现已通过知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描

    2024年02月14日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包