大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

这篇具有很好参考价值的文章主要介绍了大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

网上经常盛传 大数据=sql boy,后端开发=crud boy,算法工程师=调参boy

在大数据领域也工作了好几年了,确实大数据开发,很多工作就是写sql,hive sql、spark sql、flink sql等等sql

一、背景:

但是经常有这样一个需求,一大段sql 跑出来之后,发现不是自己想要的结果?比如:

demo 1:
select id,name from (
select id,name from table1
union all
select id,name from table2
union all
select id,name from table3
union all
select id,name from table4
)t group by id,name

demo 2:
select a.id,a.name,a.class from (select id,name from table1 where id>=10) a left join (select name,class from table2 where name is not null)
 b on a.name=b.name;

比如说:

demo 1 中的sql 出来这样的结果数据

id name
101 xiaolan
102 xiaobing
100 xiaohong

但是其中id为100的这条数据从业务逻辑上来看应该是被过滤掉的,但是实际却出来了,也就是代码实际运行结果和我们预期想的不一样

其实和c语言开发和java 开发类似,就是预期结果和代码实际结果不一致,一般在java开发或者c语言开发中,我们是通过打日志(print、log.debug )或者使用idea打断点进调试模式进行调试代码,一步一步查看中间结果,也称之为debug过程。

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

那么因此想到sql 实际运行结果和预期不符的时候能不能进行debug 调试呢?

二、大部分人的解决方案:

大部分数据开发者遇到这个问题,都是把sql 进行拆分,比如说demo 1 的sql拆分如下4个sql,分别对每个sql 进行运行判断100这个结果到底是哪个表产出的。

select id,name from table1 where id='100'

select id,name from table2 where id='100'

select id,name from table3 where id='100'

select id,name from table4 where id='100'

或者稍微修改一下

select * from (
select id,name,flag from (
select id,name,'1' as flag from table1
union all
select id,name,'2' as flag from table2
union all
select id,name,'3' as flag from table3
union all
select id,name,'4' as flag from table4
)t group by id,name,flag )t1 where id='100'

三、最终方案:

那有没有一种方法,也能做到像和java或者c语言一样进行调试中间结果呢,也就是idea debug或者通过打印日志的方式?因此称呼sql 调试的过程为sql debug。

java 或者c 语言 开启debug 模式,需要打印日志或者配合idea 进行debug,本文先讲述怎么通过打印日志进行sql debug。

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

(1)开启debug 模式

(2)拆分sql

(3)输出中间结果

(4)人工判断中间结果是否正确定位原因

(5)重复2-4过程直到找到最终结果结束

举例:

select u,
       max(tm),
       p1
from
  (
   select device_id as u,unix_timestamp(dt,'yyyy-MM-dd')*1000 as tm,p1
        from test.table1
        where dt='2023-04-09' and length(trim(device_id))>0
        union ALL
        select device_id as u,unix_timestamp(dt,'yyyy-MM-dd')*1000 as tm,p1
        from test.table2
        where dt='2023-04-09' and length(trim(device_id))>0	 
    union all 
     select device_id as u,unix_timestamp(dt,'yyyy-MM-dd')*1000 as tm,p1
     from test.table3
    where dt='2023-04-09' and length(trim(device_id))>0
    
  ) a
GROUP BY u,
         p1

(1)将这样一段sql 进行转换成语法树(如下图),这样就完成了sql解析和拆分(实际上更复杂的sql 也可进行快速拆分)

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

(2)将拆分出来的sql进行批量建表

(3)实际分析问题的时候,可以直接查询建的中间表数据

(4)分析完成之后需要自动删除建的中间表数据文章来源地址https://www.toymoban.com/news/detail-409785.html

到了这里,关于大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • JSP+SQL网上书店售书系统(源代码+论文+答辩PPT)

    二十一世纪是一个集数字化,网络化,信息化的,以网络为核心的社会。当钱天白教授于1986年9月14日在北京计算机应用技术研究所内向德国卡尔斯鲁厄大学发出第一封电子邮件“穿越长城,走向世界”的时候,他也许不知道自己推开了中国信息时代的大门;1994年4月20日,中

    2024年02月07日
    浏览(73)
  • python---------xpath提取数据------打破局限

     欢迎小可爱们前来借鉴我的gtiee秦老大大 (qin-laoda) - Gitee.com 为什么要学习XPATH和LXML类库 什么是XPATH 认识XML XML的节点关系 常⽤节点选择⼯具 节点选择语法 节点修饰语法 选择未知节点 lxml库 _____________________________________________________________ 可以利⽤ Xpath 来快速的定位特定元素

    2024年02月09日
    浏览(39)
  • PrimiHub 联邦学习大模型开源,打破数据限制,保护数据隐私安全

    ChatGPT 掀起的大模型热潮,让各界人士对人工智能大模型的关注度极速提高。 什么是大模型?大模型是指具有大量参数的深度神经网络模型,它们通常可以提供更强大的表达能力和泛化能力,从而提升各种智能服务的性能和质量。大模型在训练的过程中,会面临一个重大挑战

    2024年02月16日
    浏览(42)
  • 打破数据孤岛:ChatGPT如何打通金融大数据的任督二脉?

    随着大数据时代的来临,金融行业面临着海量数据的挑战与机遇。如何从这些数据中挖掘出有价值的信息,为企业决策提供支持,成为金融业亟待解决的问题。而ChatGPT等自然语言处理技术的崛起,为金融大数据分析带来了前所未有的机遇。本文将深入探讨ChatGPT如何助力金融

    2024年02月03日
    浏览(37)
  • 三网大数据精准营销,打破金融贷款传统获客方式

    利用三网运营商中国联通的大数据精准营销,获取客户优势: 首先,它是可以量化的。传统营销有一定的局限性,依靠现代信息技术通过移动电信运营商的大数据准确定位目标客户,这些大数据可以量化和连接,业务增长是有形的。 其次,简化流程。依托现代技术,三网运

    2024年02月10日
    浏览(41)
  • Java使用Stream API对于数据列表经常处理

    先提供一些简单到复杂的常见例子,您可以根据这些例子进行进一步的开发和学习: 查询表中所有数据: 根据条件查询单个结果: 根据条件查询多个结果,并取前几条: 对查询结果进行排序: 过滤符合条件的结果: 对查询结果进行分页: 对查询结果进行统计: 对查询结

    2024年02月13日
    浏览(42)
  • Web3与个人隐私:打破数据壁垒的新时代

    随着科技的不断发展,Web3技术的兴起为我们带来了一个全新的数字时代,重新定义了个人隐私的概念与实践。在这个时代,我们不再被动地成为数据经济的被动参与者,而是迎来了一个更加安全、透明和个人主导的网络生态。 Web3技术的核心特征之一是去中心化,它颠覆了传

    2024年02月21日
    浏览(44)
  • 华为云数据库 RDS for MySQL 的读写分离,凭什么打破企业数据瓶颈?

    随着云2.0时代的到来,众多企业发现人工智能、大数据算法能为企业发展带来巨大的利润,人工智能、大数据算法等计算机算法被应用于企业的生产和发展,云+业务逐渐成为现代化企业发展的潮流,对传统数据库模式提出了挑战。 企业的业务从线下发展到线上,这就使得服

    2024年02月22日
    浏览(50)
  • IT部门没有话语权!不打破「数据孤岛」,只能每天被业务支配

    从事IT的老人们应该能明显感受到,虽然公司这几年引入了不少系统,像PLM、ERP、MES等,分开来看,每个业务部门都有了自己的系统,实现了数据共享。 但这种不透彻的信息化建设,非但没有提升数字化水平,反而催生了“信息孤岛”的产生。 就拿销售部门举例 :财务根据

    2023年04月08日
    浏览(35)
  • 打破数据孤岛!时序数据库 TDengine 与创意物联感知平台完成兼容性互认

    新型物联网实现良好建设的第一要务就是打破信息孤岛,将数据汇聚在平台统一处理,实现数据共享,放大物联终端的行业价值,实现系统开放性,以此营造丰富的行业应用环境。在此背景下,物联感知平台应运而生,成为推动智慧城市建设,强化物联网感知设施跨行业、跨

    2024年02月11日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包