使用spark进行递归的可行方案

这篇具有很好参考价值的文章主要介绍了使用spark进行递归的可行方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在实际工作中会遇到,最近有需求将产品炸开bom到底层,但是ERP中bom数据在一张表中递归存储的,不循环展开,是无法知道最底层原材料是什么。

        在ERP中使用pl/sql甚至sql是可以进行炸BOM的,但是怎么使用spark展开,并且效率要不Oracle更高效的展开,是个问题。

展开方法

        有以下步骤:

                1. 使用spark sql中sql直接递归展开:

                        优点:可行,且效率很快

                        缺点:一个sql炸到底层,无法添加在炸开过程中的逻辑管控

                2. 一层层的展开BOM,直到没有可以展开的物料为止

                        实际效果:

                                优点:可行,并可以在每一层进行管快

                                优缺点:本质上,并不是递归计算,而是过度有限循环的计算

                                               与一些需求有冲突,比如原需求为递归计算,按照需求扣减现有量,是无法实现的

                3. 使用spark(scala)递归炸开bom:--实验中

具体步骤如下

1.使用spark sql展开bom

在Scala中,我们可以使用Spark SQL来执行递归查询。要使用Spark SQL进行递归查询,我们首先需要创建一个递归查询视图,然后在该视图中执行我们的查询操作。接下来,我们将介绍一个具体的示例来解释如何使用Spark SQL进行递归查询。

假设我们有一个部门表,其中包含部门的ID和上级部门的ID。我们想要查询一个部门的所有上级部门直到根部门的层级关系。以下是一个简化的部门表结构和数据:

CREATE TABLE department (
    department_id INT,
    parent_department_id INT
);

INSERT INTO department VALUES (1, NULL);
INSERT INTO department VALUES (2, 1);
INSERT INTO department VALUES (3, 2);
INSERT INTO department VALUES (4, 3);
INSERT INTO department VALUES (5, 3);
INSERT INTO department VALUES (6, NULL);
INSERT INTO department VALUES (7, 6);

我们可以使用Spark SQL来执行递归查询,查询部门ID为4的部门的所有上级部门:

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
    .appName("Recursive Query")
    .master("local")
    .getOrCreate()

val departmentDF = spark.read
    .format("jdbc")
    .option("url", "jdbc:mysql://localhost:3306/test")
    .option("dbtable", "department")
    .option("user", "root")
    .option("password", "password")
    .load()

departmentDF.createOrReplaceTempView("department")

spark.sql("""
    WITH RECURSIVE department_hierarchy AS (
        SELECT department_id, parent_department_id
        FROM department
        WHERE department_id = 4
        UNION ALL
        SELECT d.department_id, d.parent_department_id
        FROM department_hierarchy dh
        JOIN department d ON dh.parent_department_id = d.department_id
    )
    SELECT *
    FROM department_hierarchy
""").show()

上述示例中,我们使用Spark SQL的WITH RECURSIVE语法来定义一个递归查询视图department_hierarchy。起始查询使用了WHERE子句来找到部门ID为4的部门,然后使用UNION ALL子句将递归部分与起始部分联接起来,直到找到根部门为止。最后,我们通过SELECT语句从递归查询视图中选择所需的列。

运行以上代码,我们可以得到结果如下:

+-------------+-------------------+
|department_id|parent_department_id|
+-------------+-------------------+
|            4|                  3|
|            3|                  2|
|            2|                  1|
|            1|               NULL|
+-------------+-------------------+

总结

本文中,我们介绍了如何使用Scala中的Spark SQL来执行递归查询。我们首先了解了递归查询的概念和用法,然后通过一个具体的示例演示了如何使用Spark SQL进行递归查询。通过使用Spark SQL的WITH RECURSIVE语法,我们可以方便地处理复杂的递归查询操作,从而更好地利用Spark处理大规模结构化数据。

参考文档如下:文章来源地址https://www.toymoban.com/news/detail-771936.html

到了这里,关于使用spark进行递归的可行方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

    1、配置连接MySQL的驱动 根据自己安装的MySQL的版本,找到正确的驱动文件,我的是MySQL8.0.19 所以驱动文件是mysql-connector-java-8.0.19.jar,将其复制到spark目录下的jars文件夹下 my@ubuntu:/usr/local/spark245_h_local/jars$ cp /home/my/myfolder/mysql-connector-java-8.0.19/mysql-connector-java-8.0.19.jar . 2、spark

    2024年02月08日
    浏览(37)
  • 使用Kubernetes进行多云和混合云部署的技巧

    云计算是指利用互联网的技术,将计算机的资源(硬件和软件)按需求提供给使用者,以“付费使用”的方式进行提供,这是一种以计算能力为基础、按使用量计费的一种商业模式。 1.1 公有云、私有云、混合云的概念和特点 在云计算中根据使用场景和需求,可以探索出三种云

    2024年02月05日
    浏览(36)
  • 通过 Elasticsearch 和 Go 使用混合搜索进行地鼠狩猎

    作者:CARLY RICHMOND,LAURENT SAINT-FÉLIX 就像动物和编程语言一样,搜索也经历了不同实践的演变,很难在其中做出选择。 在本系列的最后一篇博客中,Carly Richmond 和 Laurent Saint-Félix 将搜索和向量搜索结合起来,使用 Go 客户端在 Elasticsearch 中寻找地鼠(gopher)。 今天构建

    2024年02月05日
    浏览(38)
  • jmeter--3.使用提取器进行接口关联

    目录 1. 正则表达式提取器 1.1 提取单个数据 1.2 名词解释 1.3 提取多个数据 2. 边界值提取器 2.2 名词解释 3. JSON提取器 3.1 Json语法 3.2 名词解释 3.3 如果有多组数据,同正则方式引用数据 示例数据:{\\\"access_token\\\":\\\"76_Qj8OysXMx-Vg90TtOMRwqrn3HEG4f0TJYHUZxeB_x2obewAYT5SxNefO-r5JzfWDiR_LHtF9B72b2Cd8qXy

    2024年01月22日
    浏览(51)
  • 数据挖掘(一)使用 Apriori 算法进行关联分析

    关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。 关联分析(关联规则学习): 从大规模数据集中寻找物品间的

    2024年02月09日
    浏览(50)
  • 获取cookies的方法及使用postman进行接口关联

    看有没有专门的登录测试地址,访问来获取cookie信息,然后将cookie信息粘贴到header里面 在登录前,提前打开审查元素,然后输入账号密码后,点击登录,就可以从检查工具(或者是去fiddler抓包工具去抓接口)里面抓接口查看cookie信息,    或者点击“应用”也可以查看到c

    2024年02月06日
    浏览(44)
  • 实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

    目录 一、关联分析 1.构建过程 1.1导入数据 1.2检查缺失值,异常值 1.3 约减数据集中属性 2.对结果的评述 2.1 FP-Growth的支持度(Support)参数为0.95情况 2.2 不同min support对关联规则结果的影响 2.3 不同min confidence对结果的影响 3.促销政策 二、分类预测 1.对Titannic Unlabeld进行预测

    2024年02月05日
    浏览(44)
  • 使用码云(Gitee)进行代码管理,以及VsCode关联Git

    Git的下载、安装与配置 git-简明指南 1)注册码云账号:码云官网 2)绑定邮箱:右上角 -- 头像 --【设置】--【邮箱管理】   1)新建仓库  2)仓库创建成功 3)选择本地需要提交的项目,进入项目后右键选择:git bash here 4)创建git文件,创建成功后,本地会出现一个.git文件夹

    2024年02月03日
    浏览(45)
  • Python使用递归法对整数进行因数分解

    所谓因数分解,是指把一个整数变成其所有质因数相乘的形式,例如10=2*5, 39000=2*2*2*3*5*5*5*13。 from random import randint def factors(num, fac=[]):     #每次都从2开始查找因数     for i in range(2, int(num**0.5)+1):         #找到一个因数         if num%i == 0:             fac.append(i)        

    2023年04月23日
    浏览(36)
  • 【Spark】Spark SQL基础使用详解和案例

    Spark SQL是Apache Spark的一个模块,它提供了一种基于结构化数据的编程接口。 Spark SQL支持结构化数据的处理,包括数据的读取、转换和查询。它可以将传统的基于表和SQL的操作和Spark的分布式计算相结合,提供强大的数据处理和分析能力。 Spark SQL也可以与其他Spark组件集成,如

    2024年02月15日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包