大数据之使用Spark全量抽取MySQL的数据到Hive数据库

这篇具有很好参考价值的文章主要介绍了大数据之使用Spark全量抽取MySQL的数据到Hive数据库。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章目录

前言

一、读题分析

二、使用步骤

1.导入配置文件到pom.xml

2.代码部分

三、重难点分析

总结


前言

本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取(其他暂不透露)

题目:编写Scala代码,使用Spark将MySQL的shtd_industry库中表EnvironmentData,ChangeRecord,BaseMachine,MachineData,ProduceRecord全量抽取到Hive的ods库(需自建)中对应表environmentdata,changerecord,basemachine, machinedata, producerecord中。

以下面题目为例:

抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata,字段排序、类型不变,同时添加静态分区,分区字段类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。并在hive cli执行show partitions ods.environmentdata命令,将结果截图粘贴至对应报告中;


提示:以下是本篇文章正文内容,下面案例可供参考(使用Scala语言编写)

一、读题分析

涉及组件:Spark,Mysql,Hive

涉及知识点:

  1. Spark读取数据库数据
  2. DataFrameAPI的使用(重点)
  3. Spark写入数据库数据
  4. Hive数据库的基本操作

二、使用步骤

1.导入配置文件到pom.xml

        <!--SparkSQL配置-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <!--spark连接hive-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <!--mysql配置-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.37</version>
        </dependency>

2.代码部分

由于不是很难,直接上代码,代码如下(示例):

package A.offlineDataProcessing.shtd_industry.task1_dataExtraction

import org.apache.spark.sql.functions.lit
import org.apache.spark.sql.{DataFrame, SparkSession}

import java.text.SimpleDateFormat
import java.util.{Calendar, Properties}

object SparkToMysqlToHive {
  def main(args: Array[String]): Unit = {

    // 创建Spark对象会话
    val spark = SparkSession.builder()
      .appName("MySQL to Hive")
      .master("spark://bigdata1:7077")
      .enableHiveSupport().getOrCreate()

    // 连接MySQL数据库并设置属性
    val jdbcUrl = "jdbc:mysql://bigdata1:3306/shtd_industry"
    val table = "EnvironmentData"
    val properties = new Properties
    properties.put("user", "root")
    properties.put("password", "123456")

    // Read data from MySQL
    val df: DataFrame = spark.read.jdbc(jdbcUrl, table, properties)

    println("-------------------自定义操作-------------------------")
    // Add partition column
    val dateFormat = new SimpleDateFormat("yyyyMMdd")
    //    第一个getTime返回的是一个 Date 对象
    //    第二个 getTime 方法返回的是一个整数值,表示此 Date 对象表示的时间距离标准基准时间(1970年1月1日00:00:00 GMT)的毫秒数。
    val yesterday = dateFormat.format(Calendar.getInstance().getTime.getTime - 24 * 60 * 60 * 1000)
    //对MySQL来的数据进行withCoulum操作,有就修改,没有就添加
    val dfWithPartition: DataFrame = df.withColumn("etldate", lit(yesterday))

    println("-------------------写入数据-------------------------")
    // Write data to Hive
    //    mode模式为覆盖,还有append为追加
    //    partitionBy 根据指定列进行分区
    //    saveAsTable保存表
    dfWithPartition.write.mode("overwrite")
      .partitionBy("etldate")
      .saveAsTable("ods.environmentdata")

  }

}

hive数据库相关的操作在这不做演示


三、重难点分析

没有难点,主要涉及能否自定义函数完成任务需求

val dateFormat = new SimpleDateFormat("yyyyMMdd")
    //    第一个getTime返回的是一个 Date 对象
    //    第二个 getTime 方法返回的是一个整数值,表示此 Date 对象表示的时间距离标准基准时间(1970年1月1日00:00:00 GMT)的毫秒数。
    val yesterday = dateFormat.format(Calendar.getInstance().getTime.getTime - 24 * 60 * 60 * 1000)
    //对MySQL来的数据进行withCoulum操作,有就修改,没有就添加
    val dfWithPartition: DataFrame = df.withColumn("etldate", lit(yesterday))

总结

本文仅仅介绍了Spark读取MySQL的数据到hive数据库的操作,spark提供了许多方法,我们不必写SQL语法就可以直接对数据进行操作,还是很方便的,并且难度也不高(比flink简单)。

如转载请标明出处文章来源地址https://www.toymoban.com/news/detail-672558.html

到了这里,关于大数据之使用Spark全量抽取MySQL的数据到Hive数据库的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

    【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive 本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。 mysql表建表语句:

    2024年02月03日
    浏览(33)
  • Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别

    Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 (没有充分利用内存) 接口比较简单,仅支持Map Reduce 功能比较单一 只能做离线计算 Spark优势 运行速度快

    2024年02月13日
    浏览(37)
  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月08日
    浏览(47)
  • Spark读写MySQL数据库

    一、读取数据库 (一)通过RDD的方式读取MySQL数据库 四要素:驱动、连接地址、账号密码 (二)通过DataFrame的方式读取MySQL数据库 二、添加数据到MySQL (一)通过RDD的方式插入数据到MySQL 每个分区执行一次创建连接和关闭连接 (二)通过RDD的方式插入数据到MySQL 2 每个分区

    2024年04月23日
    浏览(21)
  • 大数据平台环境搭建---- Hive&MySql数据库组件配置

    前置环境 Hadoop集群必须部署完成,如果还没有搭建请先前往Hadoop全分布搭建笔记 程序版本 hive 1.1.0 mysql 5.7.25 mysql-connector-java-5.1.39-bin.jar 资源下载 官网下载: mysql-5.7.25-1.el7.x86_64.rpm-bundle.tar :https://downloads.mysql.com/archives/community/  链接:https://pan.xunlei.com/s/VNoQg4wdxda5by6L8Lvug9e

    2024年01月25日
    浏览(49)
  • 分布式数据库·Hive和MySQL的安装与配置

    一、版本要求:Hadoop:hadoop-2.10.1、MySQL:mysql-8.0.35、 HIVE :apache-hive-3.1.2、MySQL驱动:mysql-connector-java-5.1.49 安装包网盘链接:阿里云盘分享 安装位置  Hive:master、MySQL:slave1 二、卸载已安装的MySQL(如果不符合需求) 1.关闭MySQL服务 2.Yum检查 3.安装则直接删除 4.rpm检查 5.如果存在则删

    2024年02月03日
    浏览(46)
  • 腾讯云向量数据库正式对外全量开放公测

    11月1日,腾讯云对外宣布向量数据库正式全量开放公测,同时性能层面带来巨大提升。腾讯云数据库副总经理罗云表示,除了公测之外,腾讯云向量数据库单索引已经支持百亿级向量规模,支持百万级QPS毫秒级查询延迟,领先行业平均水平1.5倍以上,计算成本低于行业水平

    2024年02月06日
    浏览(36)
  • Kettle分页循环抽取全量数据,三步搞定

    Kettle分页抽取全量数据 , 适用于大数据量初次全量抽取转换. 后续可再增加作业和转换,根据动态时间范围增量抽取转换...这篇先说全量的.   完整流程作业图如下:  ( 后续会拆解 梳理 每步流程 )   主要步骤如下: 有3步          第一步: 把需要用到的源数据DB和目标数据

    2024年02月06日
    浏览(26)
  • 4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作

    1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解 2、hive相关概念详解–架构、读写文件机制、数据存储 3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表 4、hive的使用示例详解-事务表、视图、物化视图、DDL

    2024年02月09日
    浏览(41)
  • 【MySQL】使用DBeaver数据库管理工具进行MySQL数据库连接

    一、数据库连接信息填写 1、服务器地址:填写服务器部署的地址,以及端口号 2、数据库:sys 3、用户名:root 4、密码:服务器上面设置的具体密码 以上信息填写错误的报错提示 :Access denied for user ‘XXX’@’%’ to database ‘10.42.67.22’ 二、数据库说明 1、数据库连接时选择的

    2024年02月09日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包