【数据库学习】ClickHouse(ck）-Toy模板网

这篇具有很好参考价值的文章主要介绍了【数据库学习】ClickHouse(ck）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1，ClickHouse（CK）

是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

1）特性

按列存储，列越多速度越慢；
按列存储，数据更容易压缩（类型相同、区分度）；==》每次读取的数据就更多，更少的io。
聚合性能高；
类sql操作；仅支持数据的查询、批量写入、批量删除。
用于磁盘查询，同时也利用SSD和内存
支持近似计算

2）常见的列式数据库有

Vertica、 Paraccel (Actian Matrix，Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise， Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

3）ck为什么快？

列式存储，数据类型相同，值范围也可能小（稀疏索引），更容易压缩，压缩之后每次io读取数据更多，降低了io。
可以把更多的数据放入内存。
在ck中，数据保存在不同的shard上，每一个shard都由一组用于容错的replica组成，查询可以并行地在所有shard上进行处理。
向量引擎，更高效的使用cpu。

插入为什么块？顺序批量写入；
删除为什么快？删除不快，一般按表删除（比如按天分区）。
查询为什么块？索引；
不支持修改；
group by为什么块？按列算，列数据量小；

2，索引原理

1）主索引（Primary Indexes）建立：LSM树

数据批量入库；
索引文件组织：主键列 + 其它排序列升序
每个表都有一个数据文件(*.bin)用于存储索引
按稀疏矩阵压缩，存储在磁盘上。

Granule （颗粒、行组）
是ck进行数据处理的最小的不可分割数据集。
ck每次读取数据，不是读取单独的行，而是始终读取整个行组（Granule）。

【数据库学习】ClickHouse(ck）,数据库,学习,clickhouse 第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0，然后下一个8192行(它们的列值)属于颗粒1，以此类推。
每个颗粒对应主索引的一个条目。

2）索引查询

1>颗粒选择

通过主索引二分查找，选择可能包含匹配查询的行的颗粒。

2>定位颗粒

每个列的标记文件以偏移量的形式存储两个位置:

压缩块位置
包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。
解压数据的位置
颗粒在解压数据块中的位置。

3）二级索引（Skipping Indexes)

传统的关系数据库的二级索引并不适用与ck（或者列式存储数据库），因为磁盘上没有单独的行可以添加到索引中。

如果一级索引查询后基数过大，可以考虑建立二级索引；
如果二级索引没有太大作用，此时，可以考虑：

新建一个不同的主键的新表；
创建一个物化视图；
增加Projecttion

ck主要的二级索引类型有：minmax、set、Bloom Filter。

1>Minmax

存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组，它分别存储元组元素的每个成员的值)。

场景：标量、元组表达式
不适用于：数组、map数据类型

2>Set

这个集合包含块中的所有值。
场景：列值相对集中。每组颗粒中基数较低、但总体基数较高的列。

3>Bloom Filter Types（跳数索引）

允许对集合成员进行高效的是否存在测试，但代价是有轻微的误报，读取更多的块。
场景：列有较多离散值、主键和目标列具有很强的相关性。文章来源地址https://www.toymoban.com/news/detail-783331.html

4）MergeTree引擎

到了这里，关于【数据库学习】ClickHouse(ck）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【数据库学习】ClickHouse(ck）