阿里云实时数据仓库Hologres&Flink

这篇具有很好参考价值的文章主要介绍了阿里云实时数据仓库Hologres&Flink。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 实时数仓Hologres特点

专注实时场景:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求。
亚秒级交互式分析:支持海量数据亚秒级交互式分析,无需预计算,支持多维分析、即席分析、探索式分析、MaxCompute加速分析,满足所见即所得分析体验。
统一数据服务出口:支持多维分析、高性能点查、数据检索等多个场景,支持负载隔离,简化数据架构,统一数据访问接口,实践分析服务一体化(HSAP)。
开放生态:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓。

2. 实时计算Flink服务

全托管Flink服务:开箱即用、开发远维全周期、计费灵活
丰富的企业级能力:流批一体的一站式开发运维平台、Flink CDC实时入湖入仓、动态CEP助力实时风控/营销、作业自动调优充分利用资源、智能冷断快速定位
性能强劲:内核引擎优化: CPU超秒数十万记录处理能力、Nexmark 测试性能技开源提升200%、状态存储后端优化
100%兼容开源:100%兼容Apache Flink、支持开源 Flink平滑迁移上云、无缝对接主流开源大教据生态
开放被集成能力强:自定义连按器、UXF能力扩展、Open API帮助用户集成自身系统、用户开发能力扩展与沉淀复用、用户自身系统集成
业界认可:中国信通院权威认证、中国唯一进入 Forrester 象限的实时流计算产品、金融实时数仓方案入围工信部信创典型目录

3. 数据仓库概念

数据仓库定义 ( Data Warehouse ):为企业所有决策制定过程,提供所有系统数据支持的战略集合。
传统的离线数仓无法实现当天数据的及时分析数据,所以需要开发实时数仓开填补空缺。
阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

4. 阿里云技术框架

阿里云产品 简介 类比
Flink实时计算平台 大数据计算框架 Hadoop集群+Flink+调度器
Hologres 大数据存储框架 Kafka+Redis+HBase+ClickHouse
DataHub 数据流存储 Kafka+元数据管理
RDS 关系型数据库 MySql
DataV 可视化数据展示工具 Tableau、Echarts、Kibana

5. 系统数据流程设计

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 5. Hologres的购买和基础介绍

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 后来我总是找不到实例在哪。(我等了两个小时终于实例出来啦)

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 点击登录实例

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

点击连接实例

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 双击 登录库

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

可以编辑SQL

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public' -- 可以根据需要更改模式名称
AND table_type = 'BASE TABLE';

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

6. Flink实时计算

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 开通之后点击立即试用

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 7. 数据总线Datahub

数据总线datahub是阿里云免费提供的服务,相当于大数据框架中的kafka,可以用作数据的缓存。

进入到datahub的主页面之后,点击项目管理,之后再点击新建项目。填写项目名称之后即可完成创建。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

8. 业务表

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

一共7个表

9. 同步策略

数据同步策略的类型包括:全量同步(每天把完整的数据同步)、增量同步(有一条数据变化就同步过来)
实时数仓统一都要选择增量同步,细节在于维度表数据需要保持和业务数据库始终一致,同步修改和删除。而业务流程数据需要记录下每一次数据的变化。

10. RDS服务器购买

阿里云关系型数据库(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

使用的都是内网

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 导入数据库

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

11. ODS数据同步

        ODS层的数据同步需要将数据从业务表格监控数据的实时变化,将变化数据写入到DataHub中,同步业务表格RDS(MySQL)的变更数据有多种方法,较为简单的方法,可以直接使用阿里云的DataWorks数据同步功能,此处选择更加泛用的flinkCDC方法来实现。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

12. FlinkCDC

        CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件(datahub,类似kafka)中以供其他服务进行订阅及消费。

        CDC主要分为基于查询基于Binlog两种方式,我们主要了解一下这两种之间的区别:

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

基于批处理/基于流处理

Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据增量变更数据的 source 组件。目前也已开源,

13. Flink Stream API完成数据同步

在数据总线DataHub中,先创建项目gmall_realtime,之后创建主题ods_table_ri用于接收数据,同时填写元数据信息。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

13.1 创建IDEA项目

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 解决错误 “Plugin ‘maven-shade-plugin:3.1.1‘ not found“ 的方法详解

 找到对应文件夹,更改成对应的版本号

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 解决方式是,删掉.idea这个文件夹,再导入一次项目

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 运行之后出现,需要把依赖添加进来
阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

13.2 ​​​​​​​创建工具类

推荐使用阿里云官方提供的DataHubSink写出数据,可以直接添加DataHub的元数据对应。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

下面这些信息都在阿里的DataHub中找信息,使用的是外网

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

运行CDCToDataHub,就可以看到在官网上的结果。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 13.3 打包上传

点击Maven的packeage功能。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

在Flink平台部署jar包

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

测试是否能连通DataHub?

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

但是我这里是报错的

需要买公网IP,才不会报错

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

DataHub成功访问 

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 RDS访问成功阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

启动成功

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

14. DIM层

        本次实时数仓将维度表存放到实时数仓hologres中,而维度表原始数据RDS中,所有DIM层的搭建就是将RDS中的维度表同步至hologres中,同时要能够实现实时更新的功能。

14.1 ​​​​​​​添加RDS的元数据连接

        添加RDS和hologres的catalog元数据,让flink实时计算平台能够连接对应的数据存储。

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

14.2 ​​​​​​​添加hologres的元数据连接

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

使用内网vpc的endpoint,对应的dbname

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

14.3 ​​​​​​​创建hologres的维度表

 按照行存,分区分组

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

14.4 ​​​​​​​创建实时同步数据到hologres

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 创建集群

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

运行成功 

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 提交到hologres中

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

点击部署

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 点击启动阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 启动成功之后,可以看到数据已经发送过来了

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 

全部的部署

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

15. DWD层

新建文件夹

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

复制with里面的内容

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 15.1 读取ODS业务数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

造数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 得到新生成的数据

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

15.2 ​​​​​​​Interval join合并业务表

之后进行interval join将订单表和订单明细表合并起来。文档地址:

IntervalJoin语句_实时计算Flink版-阿里云帮助中心

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据

 按住滚轮往下滑, ctrl + shift + ’->‘  就可以选到每行首个单词

阿里云实时数据仓库Hologres&Flink,大数据,数据仓库,flink,大数据 

 

使用 Interval join合并业务表 的时候出现这个问题文章来源地址https://www.toymoban.com/news/detail-756151.html

到了这里,关于阿里云实时数据仓库Hologres&Flink的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Flink的实时数据仓库与ETL应用

    在大数据时代,实时数据处理和ETL(Extract、Transform、Load)技术已经成为企业和组织中不可或缺的技术手段。Apache Flink是一种流处理框架,可以用于实时数据处理和ETL应用。在本文中,我们将深入探讨Flink的实时数据仓库与ETL应用,揭示其核心概念、算法原理、最佳实践以及实际

    2024年03月19日
    浏览(43)
  • Android端阿里云实人认证

    参数连接 Android接入 - 金融级实人认证 - 阿里云 企业认证完以后,下载aar包添加到项目中,同时添加依赖即可。 在Application 中调用初始化 通过getMetaInfos方法获取信息传至后台获取certifyId 获取到id后就可以开始认证了 成功后可以通知后台,非常简单 

    2024年02月14日
    浏览(35)
  • 阿里云实人认证有什么特点

    阿里云实人认证是对用户身份信息真实性核验的服务,验证用户为真人且为本人。包含证件 OCR 识别、活体检测、人脸对比等能力,安全效果在金融场景被有效验证,广泛应用于社交、网约车出行、银行、保险等行业。 标准方案一键接入,PC、APP、H5、小程序全场景覆盖;线上

    2024年02月07日
    浏览(39)
  • flink operator 拉取阿里云私有镜像(其他私有类似)

    注意命名空间指定你使用的 我的命名空间是flink secret type = docker-registry 这个是固定值不需要动 aliyun-docker-registry 为你的secret 取的固定名称 –docker-server 就是你私库地址 –docker-username 登录名称 –docker-password 登录密码 目前对k8s 刚刚接触1周所有对podTemplate 还是不太了解 目前这

    2024年01月21日
    浏览(38)
  • 阿里云实时计算企业级状态存储引擎 Gemini 技术解读

    本文整理自阿里云 Flink 存储引擎团队李晋忠,兰兆千,梅源关于阿里云实时计算企业级状态存储引擎 Gemini 的研究,内容主要分为以下五部分: 流计算状态访问的痛点 企业级状态存储引擎 GeminiGemini 性能评测线上表现 结语 参考 Flink 作为有状态的流计算系统,状态存储引擎在

    2024年02月03日
    浏览(49)
  • 阿里CCO:基于 Hologres 的亿级明细 BI 探索分析实践

    CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称。随着业务的多元化发展以及行业竞争的深入,用户体验问题越来越受到关注。CCO体验业务运营小二日常会大量投入在体验洞察分析中,旨在通过用户的声音数据结合交易、物流、退款等业务数据,洞察发

    2024年02月04日
    浏览(36)
  • 大数据Flink(五十一):Flink的引入和Flink的简介

    文章目录 Flink的引入和Flink的简介 一、Flink的引入 1、第1代——Hadoop MapReduce

    2024年02月15日
    浏览(46)
  • 【Flink】 Flink实时读取mysql数据

    准备 你需要将这两个依赖添加到 pom.xml 中 mysql mysql-connector-java 8.0.0 读取 kafka 数据 这里我依旧用的以前的 student 类,自己本地起了 kafka 然后造一些测试数据,这里我们测试发送一条数据则 sleep 10s,意味着往 kafka 中一分钟发 6 条数据。 package com.zhisheng.connectors.mysql.utils; impo

    2024年02月03日
    浏览(44)
  • 大数据Flink学习圣经:一本书实现大数据Flink自由

    本文是《大数据Flink学习圣经》 V1版本,是 《尼恩 大数据 面试宝典》姊妹篇。 这里特别说明一下:《尼恩 大数据 面试宝典》5个专题 PDF 自首次发布以来, 已经汇集了 好几百题,大量的大厂面试 干货、正货 。 《尼恩 大数据 面试宝典》面试题集合, 将变成大数据学习和面

    2024年02月12日
    浏览(48)
  • 大数据Flink(五十五):Flink架构体系

    文章目录 Flink架构体系 一、 Flink中的重要角色 二、Flink数据流编程模型

    2024年02月14日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包