「从ES到CK 02」Clickhouse的基础知识扫盲-Toy模板网

这篇具有很好参考价值的文章主要介绍了「从ES到CK 02」Clickhouse的基础知识扫盲。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

通过接口机写入数据到ck分布式表,日志解决方案,elasticsearch,clickhouse

ClickHouse是俄罗斯Yandex公司于2016年开发，是一个用于OLAP的列式数据库管理系统(DBMS)。

存储形式	优点	缺点	业界代表
行式	针对行的查询一致性、事务性强适合频率较高delete/update	针对列的查询存储成本高不利于聚合操作	Mysql、sql server等
列式	针对列的查询压缩率高(值近似、类型一致)，存储成本低单表海量数据查询/分析效率高、速度快	针对行的查询一致性、事务性弱不适合频率较高delete/update 多表关联查询	Clickhouse、SAP HANA等

支持多种压缩算法，在磁盘空间和cpu的消耗之间达到相对平衡

通过预排序、定期合并排序，巧妙的转化为顺序读写，大大提升吞吐量和查询效率

ClickHouse会使用服务器上一切可用的资源，从而以最自然的方式并行处理大型查询

在大多数情况下遵循ANSI SQL标准

数据读取由分布式表从所有分片获取数据，作并行处理后返回客户端
数据写入有2种方式： 1、直接写入本地表，通过外部负载均衡实现数据平均分布 2、通过分布式表写入，利用sharding_key实现数据平均分布，支持如下分片方式：

合并树家族(MergeTree)是Clickhouse内适用于高负载任务的最通用和功能最强大的表引擎，基于MergeTree还衍生出十多种具备不同特性的表引擎，下文会重点介绍MergeTree。日志平台选用的是ReplicatedMergeTree，以实现数据副本复制

支持直接从Hive、S3、RabbitMQ、kafka、mysql等14种常见的数据源同步数据

一级索引(稀疏索引)：将每列数据按照 index granularity(默认8192行)进行划分，查询时用二分法查找数据。因此，应尽量选用区分度低的字段
二级索引(跳数索引)：跳数索引是指数据片段按照粒度(index_granularity)分割成小块后，将一定数量(granularity_value)的小块按照一定规则组合成一个新的块，对这个新的块写入索引信息

主键值不是唯一的，且主键必须是 order by 字段的前缀字段。主键索引采用的是稀疏索引。

MergeTree 中唯一一个必填项，它设定了分区内的数据按照哪些字段顺序进行有序保存，应根据字段使用频率、优先级，由高至低组合，在没有显式设置主键的情况下，order by 字段即主键。

LZ4：默认的压缩方式，压缩/解压性能极强，但压缩率一般
ZSTD[(level)]：压缩/解压性能不如LZ4，但压缩率比LZ4高，常用于字符串类型。默认level为1，支持1-22，数字越大压缩率越高，但压缩/解压消耗的cpu、io资源就越多，可结合实际情况设置level值，在cpu资源和磁盘空间之间达到相对平衡