ClickHouse学习笔记(六):ClickHouse物化视图使用

这篇具有很好参考价值的文章主要介绍了ClickHouse学习笔记(六):ClickHouse物化视图使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、ClickHouse 物化视图

ClickHouse 的物化视图是一种查询结果的持久化,它的存在是为了带来查询效率的提升。用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。

2、物化视图 vs 普通视图

普通视图:普通视图不保存数据,保存的仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。
物化视图:物化视图是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表。

3、物化视图的优缺点

  • 优点
    • 查询速度快,要是把物化视图这些规则全部写好,它比原数据查询快了很多,总的行数少了,因为都预计算好了。
  • 缺点
    • 本质是一个流式数据的使用场景,是累加式的技术,所以要用历史数据做去重、去核这样的分析,在物化视图里面是不太好用的;
    • 如果一张表加了好多物化视图,在写这张表的时候,就会消耗很多机器的资源,比如数据带宽占满、存储一下子增加了很多;
    • 使用场景受限,并不适用于所有的场景;

4、物化视图的用法

4.1、基本语法

CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name]
[ENGINE = engine] [POPULATE] AS SELECT ...

使用 create 创建一个物化视图,会创建一个隐藏的目标表来保存视图数据,也可以 TO 表名,保存到 一 张显式的表。没有加 TO 表名,表名默认就是 .inner.物化视图名;

4.2、准备表结构

  • 创建 pm 性能数据表

    性能表以 start_time 和 ne_name 为组合主键,day_id 为分区,ReplacingMergeTree 为合并引擎

    CREATE TABLE default.test_01_pm
    (
    `insert_time` DateTime COMMENT '插入时间',
    `start_time` String COMMENT '数据时间',
    `ne_name` String COMMENT '网元名称',
    `pm_01` String COMMENT 'pm_01',
    `pm_02` String COMMENT 'pm_02',
    `day_id` String COMMENT '天分区'
    )
    ENGINE = ReplacingMergeTree()
    PARTITION BY (day_id)
    PRIMARY KEY (start_time,ne_name)
    ORDER BY (start_time,ne_name)
    
  • 创建 cm 配置数据表
    同上,但是 cm 配置数据主键是 ne_name

    CREATE TABLE default.test_01_cm
    (
    `insert_time` DateTime COMMENT '插入时间',
    `ne_name` String COMMENT '网元名称',
    `cm_01` String COMMENT 'cm_01',
    `cm_02` String COMMENT 'cm_02',
    `day_id` String COMMENT '天分区'
    )
    ENGINE = ReplacingMergeTree()
    PARTITION BY (day_id)
    PRIMARY KEY ne_name
    ORDER BY ne_name;
    

4.3、准备数据

  • pm 性能数据
-- pm 性能数据
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_01','100','200','2024-01-17');
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_02','100','200','2024-01-17');
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_03','100','200','2024-01-17');
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_04','100','200','2024-01-17');
-- 模拟重复数据
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_01','200','300','2024-01-17');
INSERT INTO table default.test_01_pm values(now(),'20240117080000','NE_01','500','600','2024-01-17');
  • cm 配置数据
-- cm 配置数据
INSERT INTO table default.test_01_cm values(now(),'NE_01','10','20','2024-01-17');
INSERT INTO table default.test_01_cm values(now(),'NE_02','10','20','2024-01-17');
INSERT INTO table default.test_01_cm values(now(),'NE_03','10','20','2024-01-17');
INSERT INTO table default.test_01_cm values(now(),'NE_04','10','20','2024-01-17');

4.4、查询结果

  • pm 数据查询

    select * from default.test_01_pm
    

    ClickHouse学习笔记(六):ClickHouse物化视图使用,大数据学习,clickhouse,学习,笔记

  • cm 数据查询

    select * from default.test_01_cm
    

    ClickHouse学习笔记(六):ClickHouse物化视图使用,大数据学习,clickhouse,学习,笔记

  • 创建物化视图将两个表关联起来
    通过 ne_name 将 cm 配置表中的数据关联到 pm性能表中,达到扩充表字段目的。(特别注意:不建议添加 populate 关键字,原因在最下面)

    create materialized view test_mv 
    engine ReplacingMergeTree()
    partition by (day_id)
    primary key(start_time,ne_name)
    order by (start_time,ne_name)
    
    populate
    as
    select
    	a.insert_time,
    	a.start_time,
    	a.ne_name,
    	a.pm_01,
    	a.pm_02,
    	b.cm_01,
    	b.cm_02,
    	a.day_id
    from
    	`default`.test_01_pm a
    left join test_01_cm b on a.ne_name = b.ne_name
    
  • 物化视图数据查询

select * from default.test_mv

ClickHouse学习笔记(六):ClickHouse物化视图使用,大数据学习,clickhouse,学习,笔记

注意:
1、populate 参数不建议添加,这个参数会导致历史数据的计算,如果不添加此参数则物化视图创建之后,只对新增数据进行物化视图的计算。
2、不使用 populate 又想刷新历史数据,可以使用 insert into Table2(field1,field2,field3,...) select value1,value2,... from Table1 方式进行数据刷入。以下举例说明:文章来源地址https://www.toymoban.com/news/detail-798984.html

-- 将 2024年以来的数据重新刷入到物化视图中,物化视图使用了 ReplacingMergeTree 引擎可以根据主键合并,将最新的结果数据更新进去
insert into default.test_mv
select
	a.insert_time,
	a.start_time,
	a.ne_name,
	a.pm_01,
	a.pm_02,
	b.cm_01,
	b.cm_02,
	a.day_id
from
	`default`.test_01_pm a
left join test_01_cm b on a.ne_name = b.ne_name
where a.start_time >= '202401010000'

到了这里,关于ClickHouse学习笔记(六):ClickHouse物化视图使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大数据hive】hive视图与物化视图使用详解

    目录 一、hive中的视图 二、hive视图语法与操作 2.1 数据准备 2.2  创建视图

    2024年02月06日
    浏览(32)
  • ClickHouse(二十一):Clickhouse SQL DDL操作-临时表及视图

      进入正文前,感谢宝子们订阅专题、点赞、评论、收藏!关注IT贫道,获取高质量博客内容! 🏡个人主页:含各种IT体系技术,IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客 📌订阅:拥抱独家专题,你的订阅将点燃我的创作热情! 👍点赞:赞同优秀创作

    2024年02月12日
    浏览(36)
  • 4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作

    1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解 2、hive相关概念详解–架构、读写文件机制、数据存储 3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表 4、hive的使用示例详解-事务表、视图、物化视图、DDL

    2024年02月09日
    浏览(42)
  • 【数据库学习】ClickHouse(ck)

    是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 按列存储,列越多速度越慢; 按列存储,数据更容易压缩(类型相同、区分度);==》每次读取的数据就更多,更少的io。 聚合性能高; 类sql操作;仅支持数据的查询、批量写入、批量删除。 用于磁盘查询,同时也利用

    2024年02月02日
    浏览(47)
  • 【Flink-Kafka-To-ClickHouse】使用 Flink 实现 Kafka 数据写入 ClickHouse

    需求描述: 1、数据从 Kafka 写入 ClickHouse。 2、相关配置存放于 Mysql 中,通过 Mysql 进行动态读取。 3、此案例中的 Kafka 是进行了 Kerberos 安全认证的,如果不需要自行修改。 4、先在 ClickHouse 中创建表然后动态获取 ClickHouse 的表结构。 5、Kafka 数据为 Json 格式,通过 FlatMap 扁平

    2024年02月03日
    浏览(35)
  • clickhouse里的数组数据类型与相关使用介绍

    clickhouse支持丰富的数据类型,给我们的数据存储和查询带来很多遍历。我比较喜欢的一种类型是数组类型,MySQL和PostgreSQL不支持这种数据结构,clickhouse提供了支持 clickhouse支持以下数组类型: Array(T):其中T可以是任何有效的数据类型,例如Array(Int32),Array(String)等。 FixedStr

    2024年02月03日
    浏览(32)
  • 探索ClickHouse——使用MaterializedView存储kafka传递的数据

    在 《探索ClickHouse——连接Kafka和Clickhouse》中,我们讲解了如何使用kafka engin连接kafka,并读取topic中的数据。但是遇到了一个问题,就是数据只能读取一次,即使后面还有新数据发送到该topic,该表也读不出来。 为了解决这个问题,我们引入MaterializedView。 该表结构直接借用了

    2024年02月07日
    浏览(34)
  • clickhouse数据库 使用http 方式交付查询sql

    今天使用clickhouse 的HTTP 方式进行查询语句 clickhouse  服务  搭建在192.168.0.111 上面 那么我们如何快速的去查询呢   如下 我们可以使用curl 功能 或者直接在浏览器上输入对应的查询命令  如下: 说明: 前面的IP 是我们clickhouse所在的服务器IP底子 端口      8123     默认的H

    2024年01月25日
    浏览(35)
  • 【个人笔记】ClickHouse 查询优化

    ClickHouse是OLAP(Online analytical processing)数据库,以速度见长。ClickHouse为什么能这么快?有两点原因: 架构优越 列式存储 索引 数据压缩 向量化执行 资源利用 关注底层细节 但是,数据库设计再优越也拯救不了错误的使用方式,本文以MergeTree引擎家族为例讲解如何对查询优化

    2024年01月17日
    浏览(33)
  • Spark集成ClickHouse(笔记)

    目录 前言:  一.配置环境 1.安装clickhouse驱动 2.配置clickhouse环境 二.spark 集成clickhouse  直接上代码,里面有一些注释哦!   在大数据处理和分析领域,Spark 是一个非常强大且广泛使用的开源分布式计算框架。而 ClickHouse 则是一个高性能、可扩展的列式数据库,特别适合用于

    2024年02月07日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包