Hive解析嵌套JSON数组

这篇具有很好参考价值的文章主要介绍了Hive解析嵌套JSON数组。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Hive解析嵌套JSON数组

背景:

同时发生的埋点数据往往会在一个json字符串里发送,形式是[json,json,json]的埋点数组,需要把这些数据拉平文章来源地址https://www.toymoban.com/news/detail-523481.html

处理数据:

[
    {
        "responseData":[
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...}
        ],
        "requestData":Object{...}
    },
    {
        "responseData":[
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...},
            Object{...}
        ],
        "requestData":Object{...}
    }
]

核心思想:

  1. 把最外层的"[“和”]"去除
  2. 把"},{“转换为”}|||{" ,使用split函数根据"|||"把string转为array,LATERAL view explode()把array转为列
  3. 第二步的时候发现,内部的json数组也有"},{",也会被处理一起处理
  4. 加上定制化的"responseData"使得替换具有唯一性,把},{"responseData"转换为}|||{“responseData”

代码实现

hive代码实现:

insert overwrite table ods.ods_shop_original_back_point_flat partition (pdate = '${pdate}')
select json_str
from ods.ods_shop_original_back_point
LATERAL view explode(split(REGEXP_REPLACE(regexp_extract(json , '^\\[(.+)\\]$'),'\\}\\,\\{\\"(responseData)\\"','\\}\\|\\|\\|\\{\\"responseData\\"'), '\\|\\|\\|')) str as json_str
where pdate = '${pdate}'

spark代码实现:

  spark.sql(
    s"""
       |with aa as
       |(select
       |	a.id,
       |	a.distinct_id,
       |    a.page_code,
       |    a.module_code,
       |    a.event_code,
       |    a.app_version,
       |    a.os,
       |    a.os_version,
       |    a.lib,
       |    a.lib_version,
       |    a.manufacturer,
       |    a.model,
       |    a.phone_type,
       |    a.device_id,
       |    a.product_firmware_version,
       |    a.seasoning_box_firmware_version,
       |    a.`time`,
       |	get_json_object(goods_list.goods_id,"$sc.product_id") goods_id,
       |	'' catalog,
       |    a.sn_code,
       |    a.pdate
       |from dwd.dwd_event a
       |lateral view explode(split(REGEXP_REPLACE(regexp_extract(get_json_object(get_json_object(a.param,"$sc.userBehavior"),"$sc.data.product_list") , '^\\\\[(.+)\\\\]$sc'),'\\\\}\\\\,\\\\{','\\\\}\\\\|\\\\|\\\\|\\\\{'), '\\\\|\\\\|\\\\|')) goods_list as goods_id
       |where a.pdate >= '$dateString'
       |and a.pdate <= '$enddateString'
       |and a.event_code = 'prefab_food_score')
       |
       |select
       |	aa.id,
       |    d.id distinct_id,
       |    e.user_type,
       |    aa.page_code,
       |    aa.module_code,
       |    aa.event_code,
       |    aa.app_version,
       |    aa.os,
       |    aa.os_version,
       |    aa.lib,
       |    aa.lib_version,
       |    aa.manufacturer,
       |    aa.model,
       |    aa.phone_type,
       |    aa.device_id,
       |    aa.product_firmware_version,
       |    aa.seasoning_box_firmware_version,
       |    aa.`time`,
       |	aa.goods_id,
       |	b.menu_id,
       |	b.menu_name,
       |	aa.catalog,
       |    aa.sn_code,
       |    aa.pdate
       |from aa
       |join dim.dim_menu b
       |	on aa.pdate = b.pdate
       |	and b.goods_id is not null
       |	and b.menu_status = 1
       |	and b.bin_version = '3.0'
       |	and aa.goods_id = b.goods_id
       |join dim.dim_prefab_food c
       |	on aa.pdate = c.pdate
       |	and aa.goods_id = c.goods_id
       |join ods.ods_tl_gl_user_info d
       |	on aa.distinct_id = d.uc_uid
       |	and aa.pdate = d.pdate
       |join dim.dim_user e
       |	on aa.pdate = e.pdate
       |	and d.id = e.user_id
       |""".stripMargin).createTempView("food")

到了这里,关于Hive解析嵌套JSON数组的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hive解析json

    目录 一、背景 二、hive 解析 json 数据函数 1、get_json_object  2、json_tuple 3、使用嵌套子查询(explode+regexp_replace+split+json_tuple)解析json数组 4、使用 lateral view 解析json数组 5、解析非固定名称json 我们进行ETL(Extract-Transfer-Load)  过程中,经常会遇到从不同数据源获取的不同格式的数据,

    2024年02月09日
    浏览(39)
  • Flink SQL 解析嵌套的 JSON 数据

    下面将会演示如何在 DDL 里面定义 Map、Array、Row 类型的数据,以及在 SQL 里面如何获里面的值。 数据格式如下: 上面的数据包含了 Map、Array、Row 等类型, 对于这样的数据格式,在建表 DDL 里面应该如何定义呢? 定义 DDL 解析 SQL SQL 运行的结果 以如下数据作为样例: 定义 获取 构造

    2024年02月10日
    浏览(45)
  • Hive学习(14)json解析get_json_object()函数

    目的:在一个标准JSON字符串中,按照指定方式抽取指定的字符串。 string get_json_object(string json, string path) 参数说明 json:必填。STRING类型。标准的JSON格式对象,格式为{Key:Value, Key:Value,…}。如果遇到英文双引号(\\\"),需要用两个反斜杠()进行转义。如果遇到英文单引号(

    2024年01月16日
    浏览(44)
  • Hive sql 将多个字段组合成json格式

    新的项目中,有一个需求,前端展示一个字段中要包含多个字段,讨论后决定将多个字段转成Json类型进行展示,新字段类型为 arraydict 经历了多次试验,参考多个文章版本,终于改成了符合需求的SQL版本。 SQL代码如下: 结果展示:

    2024年02月16日
    浏览(40)
  • Hive 解析 JSON 字符串数据的实现方式

    在 Hive 中提供了直接解析 JSON 字符串数据的方法 get_json_object(json_txt, path) ,该方法参数解析如下: json_txt :顾名思义,就是 JSON 字符串; path :指的是匹配 JSON 字符串的格式,通过固定的语法获取 JSON 字符串中的内容。 常用的 path 参数匹配符号有四个,分别是: $ :表示获

    2024年02月05日
    浏览(50)
  • hive中get_json_object函数不支持解析json中文key

    今天在 Hive 中 get_json_object 函数解析 json 串的时候,发现函数不支持解析 json 中文 key。 例如: 我们希望的结果是得到姓名对应的值 张三 ,而运行之后的结果为 NULL 值。 我们希望的结果是得到姓名对应的值 张三 ,而运行之后的结果为 18 。 是什么原因导致的呢?我们查看

    2024年02月12日
    浏览(56)
  • Hive字符串数组json类型取某字段再列转行

    acct content 1232313 [{\\\"name\\\":\\\"张三\\\",\\\"code\\\":\\\"上海浦东新区89492jfkdajrn福建的卡\\\"...},{\\\"name\\\":\\\"狂徒\\\",\\\"code\\\":\\\"select * from table where aa=1rn and a=12\\\"...},{...}] ... ...  上述数据表名code_content,把json中code内容全都取出来拼接成一行数据,最终效果: acct new_content 1232313 上海浦东新区89492jfkdajrn福建的

    2024年02月11日
    浏览(48)
  • Hive的窗口函数与行列转换函数及JSON解析函数

    查看系统内置函数 :show functions ; 显示内置函数的用法 : desc function lag; – lag为函数名 显示详细的内置函数用法 : desc function extended lag; 1.1 行转列 行转列是指多行数据转换为一个列的字段。 Hive行转列用到的函数 concat(str1,str2,...) 字段或字符串拼接 concat_ws(\\\'分割符\\\',str1,str2,

    2024年02月12日
    浏览(39)
  • Flink:FlinkSql解析嵌套Json

    日常开发中都是用的简便json格式,但是偶尔也会遇到嵌套json的时候,因此在用flinksql的时候就有点麻烦,下面用简单例子简单定义处理下 1,数据是网上摘抄,但包含里常用的大部分格式 {     \\\"afterColumns\\\": {         \\\"created\\\": \\\"1589186680\\\",         \\\"extra\\\": {             \\\"

    2023年04月09日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包