论数据湖技术及其应用

这篇具有很好参考价值的文章主要介绍了论数据湖技术及其应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论数据湖技术及其应用

摘要

2020年6月,我所在的公司中标某银行数据湖平台搭建项目1.0,该项目周期为2年,总投资为5000万人民币,通过该项目,搭建该银行数据湖建设项目,实现该银行所有业务数据以及用户行为日志入湖,为银行在投资理财、金融、贷款等方面提供精准营销,为挖掘潜在客户等提供业务支撑,帮助银行实现快速的业务增长。我有幸作为此次项目的负责人以及架构师参与了项目的搭建以及开发过程。该项目时间紧任务重、涉及人员组织多,直接相关银行内部40个部门 600 余人,外部配合协作 20 多个厂商团队 300 余人。该项目于 2022年 5月完成系统上线, 2022年 6 月通过最终验收,得到了用户的一致肯定,顺利达成了项目既定目标。本文重点结合实际经验,以该项目为例,论述一下项目建设过程中数据湖技术及其应用。

     

正文

2020年6月,我作为项目负责人以及架构师,主持某银行数据湖平台建设项目,该项目周期为2年,总投资为5000万人民币。该项目时间紧任务重,具有相当大的挑战性。一是需要配合的改造部门多,将近有40个部门60个应用配合数据湖平台的搭建,需要跟这60个应用配合,定义好统一的数据入湖格式,接入统一的数据湖接口。二是数据湖架构的选择。怎样选择一种高可用、可存储的数据湖架构成为该项目的一个技术难点。因为数据湖需要存储大量的数据,所需要存储的空间以及内存都要相当大,并且方便后续伸缩和可扩展。

调研得知,数据湖跟数据仓库明显不同。数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。数据仓库技术需要事先定义数据结构和数据模式(Schema)以优化快速SQL查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。而数据湖能够同时存储来自业务线应用程序的关系数据,以及来自移动应用程序、物联网设备和社交媒体的非关系数据。在进行数据捕获时,无须定义数据结构或数据模式(Schema)。数据湖支持用户对数据使用不同类型的分析(如SQL查询、大数据分析、全文检索、实时分析和机器学习等),为企业智能决策提供支持。

下面从主要数据来源、数据模式转换时机、数据存储成本、数据质量、面对用户和主要支撑应用类型等六个方面对数据湖和数据仓库技术进行比较:

  1. 主要数据来源。数据湖主要数据来源为物联网设备、互联网、移动应用程序、社交媒体和企业应用程序的结构化、半结构化和非结构化数据。数据仓库主要数据来源为事务系统、运营数据库和业务线应用程序的结构化数据。
  2. 数据模式转换时间。数据进入数据湖时不进行模式转换,在进行实际数据分析时猜进行模式转换。数据在进行数据仓库时一般需要提前设计数据仓库的Schema。
  3. 数据存储成本。数据湖通常基于非关系型数据湖,数据存储成本相对较低。数据仓库通常基于关系型数据库,数据存储成本高。
  4. 数据质量。数据湖是原始的、未经处理的数据。数据仓库可作为重要事实依据的高质量数据。
  5. 面对用户。数据湖一般面向业务分析师、应用开发人员和数据科学家。数据仓库一般面向业务分析师。
  6. 主要支撑应用类型。数据湖主要支撑应用类型为机器学习、预测分析、数据发现和分析。数据仓库主要支撑应用类型为批处理报告、商务智能和数据可视化。

了解了数据湖和数据仓库技术的差异,现在就需要为数据湖寻找一种合适的架构。数据仓库实现的技术手段一般有hadoop、flink、hive等技术,这些原则上在进入数据仓库之前都需要将数据进行清洗、过滤等,而数据湖的数据在入湖时,不需要提前对数据进行处理,只有真正使用到数据湖里面的数据的时候,才对数据进行清洗、过滤等,并进行可视化展示。最后,经过行里面的高级架构师以及我们公司的高级架构师多方调研以及评估,一致认为应该采用hudi这种架构接入数据湖。这时候,将所有的应用程序的原始数据一共分为两部分入湖,第一部分数据就是业务数据,这部分数据我们通过flinkCDC传入,写入到ods层(hudi表格中)。第二部分数据就是用户行为日志,这部分数据我们通过flume+kafka,然后通过flinkSQL映射,写入到ods层(hudi表格中)。具体实现是,将ods层里面部分相关数据转换到dim层(维度层),将多张业务表进行维度化展示,写入到hudi表格中。将ods层里面部分相关数据转换到dwd层(明细层),将多张业务表进行多组聚合(比如订单表、订单明细表),写入到hudi表格中。将dwd明细层数据进行聚合计算(需要使用flink的相关聚合函数sum等),同时对维度信息进行维度关联。最后,我们将所有业务需要查询的一些订单数据、营销数据、用户行为日志等,只要是用户想查询的数据,都将结果映射到集群架构的mysql中,并通过superset进行可视化展示。

该项目于2022年6月顺利通过验收。项目运行至今,一直表现良好,从未出现过重大生产问题。银行的数据湖搭建平台项目1.0取得巨大成功,不仅将每年业务原始数据入湖,并且给用户提供了可视化需要展示的界面,使用户对现有营销数据、经营生产数据有了一个清晰的掌握,并提供给业务人员,用户进行数据分析,对于精准营销有一定的实际指导意义,提高了银行的资源利用率。业务的原始数据入湖也为银行应对银监会的监管提供了一定的数据保护。

不足之处有两个方面,第一在架构设计的过程中我们忽略了系统的可用性,在系统测试阶段中,发现单个的hudi架构有的时候由于机房断掉,导致整个数据湖架构都不可用,为此我们采用了冗余和心跳检测机制,并实现hudi架构分南北机房部署,当一台服务器不可用时,由另外一台服务器接管,提高了系统的可用性。第二就是将数据映射到mysql中的时候,由于有的时候数据太大,映射在单台的mysql中,数据查询相当慢,针对这种情况,我们采用了mysql集群架构部署,部署了多个主从节点,并实现mysql的分库分表,以及采用读写分离的方式,成功的解决了数据查询慢的原因。

总之,在这个项目中,学到了很多很多。在以后的工作中,我将用自己的专业知识,争取为国家、为社会的发展贡献自己的一份绵薄之力。文章来源地址https://www.toymoban.com/news/detail-485677.html

到了这里,关于论数据湖技术及其应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人脸识别技术的安全性及其应用探讨

    随着科技的不断发展,人脸识别技术已经成为了一个热门话题。人脸识别系统的出现,给人们的生活带来了极大的便利,同时也为一些犯罪分子提供了方便。因此,人脸识别技术的安全性和可靠性一直备受关注。 一、人脸识别技术的原理 人脸识别技术的原理是将人脸特征提

    2024年02月04日
    浏览(41)
  • 神经网络的主要应用领域,神经网络技术及其应用

    神经网络原理及应用 1. 什么是神经网络? 神经网络是一种模拟动物神经网络行为特征,进行分布式并行信息处理的算法。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。 人类的神经网络 2. 神经网络基础知识 构成:大

    2024年02月09日
    浏览(53)
  • 云计算中的网络安全技术及其应用

    云计算已经成为当今企业信息化的主要选择之一。它提供了可靠的数据存储和处理能力,同时降低了企业的IT成本。然而,云计算的安全问题也随之而来。网络安全技术的应用对于保护云计算的安全至关重要。本文将探讨云计算中的网络安全技术及其应用,以帮助大家更好地

    2024年02月05日
    浏览(46)
  • 无人机倾斜摄影测量技术,倾斜摄影三维建模测量技术及其应用详解

    倾斜摄影技术是国际摄影测量领域近十几年发展起来的一项高新技术,该技术通过从一个垂直、四个倾斜、五个不同的视角同步采集影像,获取到丰富的建筑物顶面及侧视的高分辨率纹理。它不仅能够真实地反映地物情况,高精度地获取物方纹理信息,还可通过先进的定位、

    2024年04月25日
    浏览(40)
  • IP定位技术:网络安全行业的应用及其价值

    随着互联网的普及和深入到各个领域,网络安全问题日益受到关注。在网络安全领域,IP定位技术作为一种有效的手段,逐渐受到了业界的青睐。本文将阐述IP定位技术在网络安全行业的应用及其价值。 一、IP定位技术在用户分布统计方面的应用 在网络安全领域,用户分布统

    2024年01月20日
    浏览(51)
  • 机器人感知与控制关键技术及其智能制造应用

    源自:自动化学报       作者:王耀南 江一鸣 姜娇 张辉 谭浩然 彭伟星 吴昊天  曾凯 智能机器人在服务国家重大需求, 引领国民经济发展和保障国防安全中起到重要作用, 被誉为“制造业皇冠顶端的明珠”. 随着新一轮工业革命的到来, 世界主要工业国家都开始加快机器人

    2024年02月09日
    浏览(69)
  • 安卓之图表库的应用场景、技术实现及其优劣分析

            在移动应用开发中,数据可视化对于提供直观信息、帮助用户理解数据至关重要。安卓平台上的图表库为开发者提供了一系列工具和组件,使他们能够轻松地创建各种类型的图表,如线型图、柱状图、蜡烛图、气泡图、饼状图、雷达图以及散点图等。本文将深入探

    2024年01月19日
    浏览(50)
  • 自然语言处理 Paddle NLP - 词法分析技术及其应用

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月09日
    浏览(52)
  • 「我在淘天做技术」音视频技术及其在淘宝内容业务中的应用

    作者:李凯 近年来,内容电商似乎已经充分融入到人们的生活中:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间、或者短视频链接下单自己心仪的商品。 尽管优质的货品、实惠的价格、精致的布景、有趣的内容输出都是非常关键的影响因素,内容电商也必须

    2024年02月01日
    浏览(50)
  • 探究弹性伸缩技术在云计算中的应用及其挑战

    随着云计算技术的不断发展,人们对于云计算的认识和理解也在不断深入。作为云计算核心技术之一,弹性伸缩是云计算中一个重要的概念。它是指根据需求对云计算资源进行自动化的增加或减少,以实现资源的最佳利用和效率。弹性伸缩是云计算中实现高度可用性、可扩展

    2024年02月08日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包