XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

这篇具有很好参考价值的文章主要介绍了XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一个Flink任务只能并行处理一个或少数几个数据流,而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流;

一个Flink任务只能实现一个或少数几个数据指标,而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。

1、XL-LightHouse :

  •  1、再也不需要用 Flink、Spark、ClickHouse 或者基于 Redis 这种臃肿笨重的方案跑数了;
  •  2、再也不需要疲于应付对个人价值提升没有多大益处的数据统计需求了,能够帮助您从琐碎反复的数据统计需求中抽身出来,从而专注于对个人提升、对企业发展更有价值的事情;
  •  3、轻松帮您实现任意细粒度的监控指标,是您监控服务运行状况,排查各类业务数据波动、指标异常类问题的好帮手;
  •  4、培养数据思维,辅助您将所从事的工作建立数据指标体系,量化工作产出,做专业严谨的职场人,创造更大的个人价值;

2、流式统计虽然是属于流式计算的一种计算形式

        流式统计无外乎Count运算、Sum运算、Bitcount运算(count distinct)、Max运算、Min运算、Avg运算、Seq运算(时序数据)、Dimens运算(维度划分)、Limit运算(topN/lastN)

3、Flink用于流式统计存在缺陷

3-1、资源利用率低

Flink的资源利用率低要从两个角度来看,一个是集群运行的拓扑结构,另一个是Flink任务执行的特性。

3-2、运算性能低

3-3、接入成本较高

(1)、Flink面向专业的大数据研发人员,大量统计指标的实现需要耗费大量的研发成本。
(2)、由于Flink自身在流式统计领域的基础功能并不完善,所以很多场景下都需要研发人员依据统计任务的数据量、统计周期的粒度、数据倾斜状况等因素进行特定的优化。所以使用Flink实现很多相类似的功能,由于数据量差异、统计周期的不同,程序的实现方式也可能截然不同

3-4、运维成本高、运算资源成本高

对比XL-LightHouse,Flink的运维成本更高,体现在几个方面:
(1)、实现相同的流式统计需求,Flink集群规模要明显大于XL-LightHouse的集群规模,导致运维成本增加。
(2)、由于Flink集群面向专业的研发人员,Flink集群的运转是由集群维护人员和Flink任务的研发人员共同参与,如果集群要进行版本升级、集群扩容、日常维护、数据迁移等操作均需要与研发人员事先沟通、达成默契,很多类似版本升级的操作会涉及相关任务的升级改造。如果集群规模庞大、涉及研发人员、相关任务较多的话,那这个过程也必然会耗费了较大的维护成本

4、ClickHouse用于流式统计存在缺陷

  • ClickHouse适用场景的特点
    (1)单个或较少数量的应用场景,且每个应用场景都有海量的数据;
    (2)业务场景有大量的维度字段,可能需要按照十几个甚至几十个以上的维度随意组合进行多维度即席查询操作;
    (3)业务场景有明细查询的需求;
    (4)不同数据源之间可能有join查询的需求;

  • ClickHouse的缺点
    (1)由于每次查询都需要遍历海量数据,所以并发度支持有限;
    (2)由于系统内存储着海量的明细数据,集群规模庞大、结构复杂,维护成本高昂;
    (3)每次查询都要遍历数据,进行实时统计运算,需要耗费的大量的内存和CPU资源;
    (4)数据接入需要进行各种层面的优化,使用门槛较高、面向专业的大数据研发人员使用;
    (5)接入成本高、维护成本高、服务器成本高,使用门槛高,对中小企业不太友好;

5、XL-LightHouse的特性

(1)可以支持高并发查询统计结果

(2)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

(3)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统,大数据,flink,clickhouse,LightHouse

6、应用场景统计

点击量:
1、每5分钟_点击量
2、每5分钟_各ICON_点击量
3、每小时_点击量
4、每小时_各ICON_点击量
5、每天_总点击量
6、每天_各Tab_总点击量
7、每天_各ICON_总点击量

点击UV:
1、每5分钟_点击UV
2、每小时_点击UV
3、每小时_各ICON_点击UV
4、每天_总点击UV
5、每天_各ICON_总点击UV

支付成功订单数据统计

订单量:
1、每10分钟_订单量
2、每10分钟_各商户_订单量
3、每10分钟_各省份_订单量
4、每10分钟_各城市_订单量
5、每小时_订单量
6、每天_订单量
7、每天_各商户_订单量
8、每天_各省份_订单量
9、每天_各城市_订单量
10、每天_各价格区间_订单量
11、每天_各应用场景_订单量

交易金额:
1、每10分钟_成交金额
2、每10分钟_各商户_成交金额top100
3、每10分钟_各省份_成交金额
4、每10分钟_各城市_成交金额
5、每小时_成交金额
6、每小时_各商户_成交金额
7、每天_成交金额
8、每天_各商户_成交金额
9、每天_各省份_成交金额
10、每天_各城市_成交金额
11、每天_各应用场景_成交金额

下单用户数:
1、每10分钟_下单用户数
2、每10分钟_各商户_下单用户数
3、每10分钟_各省份_下单用户数
4、每10分钟_各城市_下单用户数
5、每小时_下单用户数
6、每天_下单用户数
7、每天_各商户_下单用户数
8、每天_各省份_下单用户数
9、每天_各城市_下单用户数
10、每天_各价格区间_下单用户数
11、每天_各应用场景_下单用户数

  • 资讯类场景使用演示 dtstep.com/archives/4262.html
  • 电商类场景使用演示 dtstep.com/archives/4286.html
  • 即时通讯类场景使用演示 dtstep.com/archives/4291.html
  • 技术类场景使用演示 dtstep.com/archives/4298.html

项目地址:

https://github.com/xl-xueling/xl-lighthouse

https://github.com/xl-xueling/xl-lighthouse.git

https://gitee.com/mirrors/XL-LightHouse.git

参考文档:文章来源地址https://www.toymoban.com/news/detail-704065.html

1、项目介绍
  • dtstep.com/archives/4455.html
2、Git地址
  • https://github.com/xl-xueling/xl-lighthouse.git
  • xl-lighthouse: XL-LightHouse是一套支持大数据量、支持超高并发的通用型流式大数据统计平台,常见的应用场景比如:PV、UV统计,电商销售额统计、日志数据统计、接口调用量、耗时情况等统计,支持多维度统计,支持各种复杂的条件筛选和逻辑判断,一键部署,一行代码接入,轻松实现各种海量数据实时统计,帮助企业以更低的成本快速搭建起数据指标体系,是企业降本增效的好帮手!
3、交流社区
  • DTStep
4、项目设计
  • dtstep.com/archives/4227.html
5、一键部署
  • dtstep.com/archives/4257.html
6、XL-Formula使用
  • dtstep.com/archives/4215.html
7、Web服务操作说明
  • dtstep.com/archives/4233.html
8、Hello World
  • dtstep.com/archives/4301.html
9、适用场景
  • 资讯类场景使用演示 dtstep.com/archives/4262.html
  • 电商类场景使用演示 dtstep.com/archives/4286.html
  • 即时通讯类场景使用演示 dtstep.com/archives/4291.html
  • 技术类场景使用演示 dtstep.com/archives/4298.html
10、版权声明
  • dtstep.com/archives/4206.html
11、使用反馈
  • dtstep.com/community/ldp-issue
12、依赖组件
  • dtstep.com/archives/4445.html

到了这里,关于XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X

    🚀 作者 :“大数据小禅” 🚀 文章简介 :Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X 🚀 欢迎小伙伴们 点赞 👍、 收藏 ⭐、 留言 💬 Flink怎么操作Redis Flink怎么操作redis? 方式一:自定义sink 方式二:使用connector Redis Sink 核心是RedisMapper 是一个接口,使用时要

    2024年02月06日
    浏览(42)
  • Flink 有状态流式处理

    【1】持续收取数据( kafka 等),以 window 时间作为划分,划分一个一个的批次档案(按照时间或者大小等); 【2】周期性执行批次运算( Spark/Stom 等); 传统批次处理方法存在的问题: 【1】假设计算每小时出现特定事件的转换次数(例如:1、2…),但某个事件正好处于

    2024年02月04日
    浏览(50)
  • 大数据Flink(五十):流式计算简介

    文章目录 流式计算简介 一、数据的时效性 二、流式计算和批量计算

    2024年02月15日
    浏览(45)
  • Flink 流式读写文件、文件夹

    Apache Flink针对文件系统实现了一个可重置的source连接器,将文件看作流来读取数据。如下面的例子所示: StreamExecutionEnvironment.readFile()接收如下参数: FileInputFormat参数,负责读取文件中的内容。 文件路径。如果文件路径指向单个文件,那么将会读取这个文件。如果路径指向一

    2024年02月12日
    浏览(45)
  • Hologres + Flink 流式湖仓建设

    2024年01月18日
    浏览(52)
  • Flink:流式 Join 类型 / 分类 盘点 (一)

    博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧

    2024年03月17日
    浏览(34)
  • Flink + MySQL 流式计算数据分析

    作者:禅与计算机程序设计艺术 大数据时代,海量的数据源源不断涌入到互联网、移动应用、企业数据库等各个领域,同时这些数据也逐渐成为各种业务场景中的主要输入数据。如何在短时间内对海量数据进行处理、分析并得出有价值的信息,已经成为当今社会越来越关注的

    2024年02月06日
    浏览(48)
  • Flink流式计算状态检查点与恢复

    Flink流式计算状态检查点与恢复 Apache Flink是一个流处理框架,用于实时数据处理和分析。Flink可以处理大规模数据流,并提供一种高效、可靠的方法来处理和分析这些数据。Flink流式计算状态检查点与恢复是流处理的关键组件,它们确保Flink应用程序在故障时能够恢复并继续处

    2024年02月19日
    浏览(42)
  • 【Flink-Kafka-To-ClickHouse】使用 Flink 实现 Kafka 数据写入 ClickHouse

    需求描述: 1、数据从 Kafka 写入 ClickHouse。 2、相关配置存放于 Mysql 中,通过 Mysql 进行动态读取。 3、此案例中的 Kafka 是进行了 Kerberos 安全认证的,如果不需要自行修改。 4、先在 ClickHouse 中创建表然后动态获取 ClickHouse 的表结构。 5、Kafka 数据为 Json 格式,通过 FlatMap 扁平

    2024年02月03日
    浏览(45)
  • Flink的流式数据处理与时间序列分析

    Apache Flink 是一个流处理框架,用于实时数据处理和分析。它支持大规模数据流处理,具有高吞吐量和低延迟。Flink 可以处理各种数据源和数据接收器,如 Kafka、HDFS、TCP 流等。 时间序列分析是一种用于分析时间序列数据的方法,用于发现数据中的趋势、季节性和随机性。时间

    2024年02月21日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包