在hadoop或docker环境下基于kafka和flink的实时计算大屏展示

这篇具有很好参考价值的文章主要介绍了在hadoop或docker环境下基于kafka和flink的实时计算大屏展示。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第一章 总体需求

1.1.课题背景

某股票交易机构已上线一个在线交易平台,平台注册用户量近千万,每日均 接受来自全国各地的分支机构用户提交的交易请求。鉴于公司发展及平台管理要 求,拟委托开发一个在线实时大数据系统,可实时观测股票交易大数据信息,展 示部分重要业绩数据。

1.2.数据源

为提供更真实的测试环境,公司的技术部门委托相关人员已设计了一个股票交易数据模拟器,可模拟产生客户在平台中下单的信息,数据会自动存入指定文件夹中的文本文件。

该模拟器允许调节进程的数量,模拟不同量级的并发量,以充分测试系统的性能。数据的具体字段说明详见下表:

docker 关于大屏展示的,kafka,flink,分布式,hadoop

1.3.要求

运用实时计算技术,采用不同的数据接入、实时计算方法构建一个股票实时交易的大数据看板,实现以下功能: 

(1) 可采用成熟的数据看板开源组件(要求有使用许可,如阿里的 DataV平台),或者自主开发本地展示平台;界面要求每秒刷新一次;

(2) 界面应美观大方、简洁的信息;

(3) 展示的信息应至少包含以下内容:

a) 订单的已处理速度,单位为“条/秒”;

b) 近 1 分钟与当天累计的总交易金额、交易数量;

c) 近 1 分钟与当天累计的买入、卖出交易量;

d) 近 1 分钟与当天累计的交易金额排名前 10 的股票信息;

e) 近 1 分钟与当天累计的交易量排名前 10 的交易平台;

f) 展示全国各地下单客户的累计数量(按省份),在地图上直观展示;

g) 展示不同股票类型的交易量分布情况;

h) [可选]对单支股票的交易量爆发式增长进行预警

(4) 数据统计误差(数据丢失、统计错误)不超过 1%,应设计实验计算数据误差率;

(5) 展示的数据延迟应不超过 30 秒,每次刷新时应显示获取的数据最新时间;

(6) 测试出系统的最大承载负荷量,即你搭建系统每秒最多能处理的订单数量;

(7)特色功能,根据业务场景及展示需要增加的特色功能。

  • 方案分析

本文结合实时计算的相关技术,制定了两种方案实现课题需求。

2.1.方案一

方案一的架构如图 1 所示利用kafka直接读取股票数据模拟器产生的数据,再使用Strom作为流计算平台,将统计的消息直接存入mysql数据库中去。datav直接读取mysql云数据库中的数据,并在大屏上展示出来

docker 关于大屏展示的,kafka,flink,分布式,hadoop

图一 方案一

该方案的优点是:

  1.  Kafka是一个高吞吐量、低延迟的分布式消息队列,可以快速处理和传递大量的实时数据。通过将股票数据模拟器产生的数据直接写入Kafka,可以实现实时的数据流处理,保证了数据的及时性。
  2.  Storm是一个分布式、容错的实时计算系统,它支持快速、可靠地处理大规模数据流。通过使用Storm作为流计算平台,可以对从Kafka中读取的股票数据进行实时的统计和计算,提供即时的数据分析和预测功能。
  3.  采用阿里云的数据库可以直接连接Datav不需要进行其他操作。

2.2.方案二

docker 关于大屏展示的,kafka,flink,分布式,hadoop

图二 方案二

方案二的架构如图 2 所示。利用kafka直接读取股票数据模拟器产生的数据,再使用Flink作为流计算平台,将统计的消息利用flinkjdbc直接存入mysql数据库中去。datav直接读取mysql云数据库中的数据,并在大屏上展示出来。

该方案的优点是:

  1.  Flink 对窗口事务的支持较为完善,自带窗口聚合方式实现数据统计;
  2.  Flink提供的与MySQL数据库的集成的连接方式;
  3.  Flink 提供了事件驱动的流处理模型,能够实现毫秒级的低延迟处理,同时具备很高的吞吐量,适合处理实时数据流。
  • 总体方案

方案的总体架构如图3所示,主要由数据源、消息中间件、流计算系统、实时数据存储和实时数据应用五大板块组成。

股票数据模拟器不断的产生股票数据,消息中间件为 Kafka,Kafka将股票模拟器产生的数据依次读取出来,并每秒读取一次excel表,将新生产的数据发送到kafka消费者。流计算系统选取的是flink,通过flink消费kafka生产的数据,并利用多线程的方式将计算结果保存的阿里云的Mysql数据库中去。最后利用datav直接连接阿里云的mysql数据库。

docker 关于大屏展示的,kafka,flink,分布式,hadoop

3

  • 单元实现

4.1.数据采集

由于股票数据模拟器会将数据实时保存Excel中,因此本文选择在 Kafka 生产者中建立与Excel表的连接,将最新的数据依次读取出来,并将读取到的数据发送到Kafka的topic主题中。

docker 关于大屏展示的,kafka,flink,分布式,hadoop

图4 生产者配置信息

docker 关于大屏展示的,kafka,flink,分布式,hadoop

图5 循环读取每一个csv文件

4.2.数据的分发与订阅

Kafka生产者生产来自股票数据模拟器产生的数据后,利用flink作为消费者,去消费kafka生产的内容。Flink消费者的配置如图6所示,然后利用flink的sink对消费的数据进行实时计算,如图7。

docker 关于大屏展示的,kafka,flink,分布式,hadoop

图6 flink配置文章来源地址https://www.toymoban.com/news/detail-773116.html

到了这里,关于在hadoop或docker环境下基于kafka和flink的实时计算大屏展示的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(二)数据源

    目标 : 了解数据源的格式及实现模拟数据的生成 路径 step1:数据格式 step2:数据生成 实施 数据格式 消息时间 发件人昵称 发件人账号 发件人性别 发件人IP 发件人系统 发件人手机型号 发件人网络制式 发件人GPS 收件人昵称 收件人IP 收件人账号 收件人系统 收件人手机型号

    2024年02月04日
    浏览(32)
  • 计算机毕设项目之基于django+mysql的疫情实时监控大屏系统(前后全分离)

    系统阐述的是一款新冠肺炎疫情实时监控系统的设计与实现,对于Python、B/S结构、MySql进行了较为深入的学习与应用。主要针对系统的设计,描述,实现和分析与测试方面来表明开发的过程。开发中使用了 django框架和MySql数据库技术搭建系统的整体架构。利用这些技术结合实

    2024年02月12日
    浏览(31)
  • 小米基于 Flink 的实时计算资源治理实践

    摘要:本文整理自小米高级软件工程师张蛟,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分: 发展现状与规模 框架层治理实践 平台层治理实践 未来规划与展望 点击查看原文视频 演讲PPT 如上图所示,下层是基础服务,包括:统一元数据服务、统一

    2024年02月13日
    浏览(31)
  • 基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(五)FineBI可视化

    目标 : 实现FineBI访问MySQL结果数据集的配置 实施 安装FineBI 参考《FineBI Windows版本安装手册.docx》安装FineBI 配置连接 数据准备 小结 实现FineBI访问MySQL结果数据集的配置 目标 : 实现FineBI实时报表构建 路径 step1:实时报表构建 step2:实时报表配置 step3:实时刷新测试 实施 实

    2024年02月04日
    浏览(29)
  • 大数据毕设-基于hadoop+spark+大数据+机器学习+大屏的电商商品数据分析可视化系统设计实现 电商平台数据可视化实时监控系统 评论数据情感分析

    🔥作者:雨晨源码🔥 💖简介:java、微信小程序、安卓;定制开发,远程调试 代码讲解,文档指导,ppt制作💖 精彩专栏推荐订阅:在下方专栏👇🏻👇🏻👇🏻👇🏻 Java精彩实战毕设项目案例 小程序精彩项目案例 Python实战项目案例 ​💕💕 文末获取源码 本次文章主要是

    2024年02月03日
    浏览(84)
  • 基于Kafka和Spark实现实时计算系统

    Apache Kafka是一个分布式的流处理平台。它最初是由LinkedIn开发并开源的,现在已经成为Apache软件基金会旗下的顶级项目之一。Kafka主要用于实时流数据的高吞吐量传输、存储和处理,例如日志收集、流式的ETL以及实时的Web日志等。 Apache Spark是一个用于大规模数据处理的通用引

    2024年02月10日
    浏览(33)
  • 基于华为MRS实时消费Kafka通过Flink落盘至HDFS的Hive外部表的调度方案

    该需求为实时接收对手Topic,并进行消费落盘至Hive。 在具体的实施中,基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台为开源dolphinscheduler。 本需求的完成全部参考华为官方MRS3.2.0开发文档,相关章节是普通版的安全模式。 华为官方文档:

    2024年01月18日
    浏览(37)
  • 基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

    该需求为实时接收对手Topic,并进行消费落盘至Hive。 在具体的实施中,基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台为开源dolphinscheduler。 本需求的完成全部参考华为官方MRS3.2.0开发文档,相关章节是普通版的安全模式。 华为官方文档:

    2024年01月21日
    浏览(34)
  • 基于Hologres+Flink的曹操出行实时数仓建设作者:林震|曹操出行实时计算负责人

    作者:林震|曹操出行实时计算负责人 曹操出行 创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心

    2024年01月24日
    浏览(40)
  • OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案

    摘要:本文整理自 OceanBase 架构师周跃跃,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 分布式数据库 OceanBase 关键技术解读 生态对接以及典型应用场景 OceanBase X Flink 在游戏行业实践 未来展望 点击查看原文视频 演讲PPT 作为一款历经 12 年的纯自研

    2024年02月13日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包