Clickhouse实时指标加工

这篇具有很好参考价值的文章主要介绍了Clickhouse实时指标加工。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Starwift实时指标加工方案

方案介绍

​ Starwift(ClickHouse)是京东云上的一款云原生数据仓库,为用户带来极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。实时指标加工是从离线指标加工需求演变而来。业务场景对离线加工的时效性的要求已经升级为指标加工分析实时性的增强。

​ 实时指标加工首先要求指标加工的时效性能够保障,指标的加工的时效性是指从数据源到数据计算,再到数据的落地可查,整个过程都是完全实时的,并且保证时延最低。其次,在准确性方面,无论有多复杂的数据处理链路,实时指标的加工不会因为节点抖动或其他问题而导致数据重复或丢失。最后从投入的角度来看,如何保障后续的指标开发/加工/运维成本可控等诸多因素 。

面对实时指标的加工要求,选择了Starwift作为实时指标加工的载体。实时指标开发要求时效延迟低、数据准确高、开发运维成本低,这些与Starwift的特性高度匹配,因此整个指标的加工链路的实现使用了Starwift作为指标计算的载体。整体实现加工通过Flink+Starwift(物化视图)方案进行实时指标加工Starwift中的物化视图具有以下优势:

  1. 查询性能优化:物化视图是预计算并存储的查询结果,可以极大地提高查询效率。当基础数据发生变化时,物化视图可以快速地刷新数据,保持与基础数据的一致性。
  2. 简化复杂查询:通过物化视图,用户可以将复杂的查询逻辑抽象化,从而简化查询操作。用户只需关心最终的结果,而不需要了解底层数据的具体细节。
  3. 提高数据安全性:物化视图可以为数据提供安全保护,限制用户对特定数据的访问权限。通过视图,用户只能访问被授权的数据,从而保护敏感数据不被泄露。
  4. 降低系统负载:物化视图可以分担一部分查询负载,降低对底层数据源的压力。当大量用户同时访问时,物化视图可以有效地分散请求,减轻数据源的负担。
  5. 提高数据整合性:物化视图可以将不同数据源的数据整合到一起,为用户提供统一的数据视图。通过物化视图,用户可以轻松地获取跨多个数据源的数据,而无需进行复杂的跨库查询。

具体的实时指标加工链路如下:
Clickhouse实时指标加工,clickhouse,大数据
数据源:首先,数据从各种源流入,如 Kafka、数据库、API 等。

数据采集:使用 Flink 流处理框架,实时捕获并处理来自数据源的数据流。Flink 可以高效地处理大量实时数据,并进行实时分析、聚合等操作。

数据清洗与转换:在 Flink 中,可以进行数据清洗、转换和预处理,确保数据的质量和准确性。

数据存储:经过处理的数据可以存储在 Starwift 中。Starwift 是一个高性能的列式数据库管理系统,非常适合实时分析和查询。

物化视图:在 Starwift 中,可以使用物化视图来存储预先计算的结果。物化视图可以加速查询性能,并提高数据处理的效率。

查询与报表:通过 Starwift 的查询引擎,用户可以快速查询和检索实时数据,生成各种报表和分析结果。

场景举例

例如有如下广告栏位统计需求场景:用户IDurl,access_time,channel等四个字段分别记录了用户信息/访问URL/访问时间/访问频道等字段信息,现需要按照天统计每个URL的曝光次数。

按照上述需求场景,首先第一步需要通过Flink程序实时采集点击的明细数据入starwift将数据写入stg(贴源层),按照业务需求,仅仅是统计当天的URL统计指标数据,因此贴源层的数据时效性一般可以设置148小/1周的数据,一周后数据会自动清除,减少对存储节点的磁盘消耗。
Clickhouse实时指标加工,clickhouse,大数据
按照上述章节描述,我们需要在Starwift中创建一张明细表,数据通过flink加工数据直接写到贴源层,由于贴源层的数据存储时间有时常限制,所以可以构建一个TTL表文章来源地址https://www.toymoban.com/news/detail-799807.html

create table if not exists stg.stg_user_channel_click(
  user_id UInt8,
  url String,
  channel String

到了这里,关于Clickhouse实时指标加工的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 万字长文详述ClickHouse在京喜达实时数据的探索与实践

    京喜达技术部在社区团购场景下采用JDQ+Flink+Elasticsearch架构来打造实时数据报表。随着业务的发展 Elasticsearch开始暴露出一些弊端,不适合大批量的数据查询,高频次深度分页导出导致ES宕机、不能精确去重统计,多个字段聚合计算时性能下降明显。所以引入ClickHouse来处理这些

    2024年02月06日
    浏览(37)
  • ClickHouse如何处理实时更新

    本文通过示例介绍如何处理ClickHouse实时更新。OLAP数据库并不欢迎数据变更操作,ClickHouse也不例外,和其他OLAP产品一样,刚开始ClickHouse甚至不支持更新,更新能力是后来才加上的,但是按照ClickHouse方式增加的。当前ClickHouse更新是异步的,使得在交互应用中难以使用。有很多

    2024年02月15日
    浏览(47)
  • ClickHouse与Elasticsearch实时搜索案例

    随着数据的增长和实时性的要求,实时搜索技术变得越来越重要。ClickHouse和Elasticsearch都是流行的实时搜索技术,它们各自具有不同的优势和适用场景。本文将详细介绍ClickHouse与Elasticsearch的实时搜索案例,并分析它们的优缺点。 2.1 ClickHouse ClickHouse是一个高性能的列式数据库

    2024年02月19日
    浏览(39)
  • MySQL FlinkCDC 通过Kafka实时同步到ClickHouse(自定义Debezium格式支持增加删除修改)

    MySQL FlinkCDC 通过Kafka实时同步到ClickHouse(自定义Debezium格式支持增加删除修改) 把MySQL多库多表的数据通过FlinkCDC DataStream的方式实时同步到同一个Kafka的Topic中,然后下游再写Flink SQL拆分把数据写入到ClickHouse,FlinkCDC DataStream通过自定义Debezium格式的序列化器,除了增加,还能进行

    2024年02月15日
    浏览(42)
  • 【Flink】【ClickHouse】写入流式数据到ClickHouse

    Flink 安装的教程就不在这里赘叙了,可以看一下以前的文章,这篇文章主要是把流式数据写入的OLAP(ClickHouse)中作查询分析 Flink 1.13.2, ClickHouse 22.1.3.7 这里直接使用docker安装,没有安装的同学可以使用homebreak来安装,执行下面的命令即可( 已经安装了docker的可以忽略 ) 四指

    2024年02月03日
    浏览(44)
  • ClickHouse进阶(七):Clickhouse数据查询-1

    进入正文前,感谢宝子们订阅专题、点赞、评论、收藏!关注IT贫道,获取高质量博客内容! 🏡个人主页:含各种IT体系技术,IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客 📌订阅:拥抱独家专题,你的订阅将点燃我的创作热情! 👍点赞:赞同优秀创作,你

    2024年02月10日
    浏览(48)
  • clickhouse系列3:clickhouse分析英国房产价格数据

     本文使用的数据集下载链接: https://download.csdn.net/download/shangjg03/88478086 该数据集包含有关英格兰和威尔士自1995年起到2023年的房地产价格的数据,超过2800万条记录,未压缩形式的数据集大小超过4GB,在ClickHouse中需要约306MB。

    2024年02月10日
    浏览(33)
  • 大数据系列——什么是ClickHouse?ClickHouse有什么用途?

    目录 一、什么是ClickHouse 二、ClickHouse有什么用途 三、ClickHouse的不足 四、适用场景 五、ClickHouse特点 六、ClickHouse VS MySQL 七、类SQL 语句  八、核心概念 clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的 列式存储数据库, 使用 C++ 语言编写; 一款面向 OLAP 的数据库 ClickHouse支持类

    2024年01月22日
    浏览(41)
  • 大数据ClickHouse(二十):ClickHouse 可视化工具操作

    文章目录 ClickHouse 可视化工具操作 一、tabix 1、直接浏览器访问 2、ClickHouse内嵌方式

    2024年02月02日
    浏览(37)
  • Clickhouse Engine kafka 将kafka数据同步clickhouse

    根据官方给出的kafka引擎文档,做一个实践记录。 官方地址:https://clickhouse.tech/docs/zh/engines/table-engines/integrations/kafka/ 1、特性介绍 clickhouse支持kafka的表双向同步,其中提供的为Kafka引擎。 其大致情况为如下情况:Kafka主题中存在对应的数据格式,Clickhouse创建一个Kafka引擎表(

    2024年01月16日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包