大数据技术之ClickHouse---入门篇---介绍

这篇具有很好参考价值的文章主要介绍了大数据技术之ClickHouse---入门篇---介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
                       星光下的赶路人star的个人主页

                      一棵树长到它想长到的高度之后,它才知道怎样的空气适合它

1、Clickhouse入门

1.1 什么是Clickhouse

ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++
语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报
告。

1.1.1 Clickhouse的特点

1.1.1.1 列示储存

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
1、采用列示储存时,数据在磁盘上的组织结构为:
大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想
查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的

2、采用列式存储时,数据在磁盘上的组织结构为:
大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
这时想查所有人的年龄只需把年龄那一列拿出来就可以了
3、列示储存的好处
对于列的聚合,计数,求和等统计操作原因优于行式存储。

由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列
选择更优的数据压缩算法,大大提高了数据的压缩比重。

由于数据压缩比更好,一方面节省了磁盘空间,另一方面对于 cache 也有了更大的
发挥空间。

1.1.1.2 DBMS的功能

几乎覆盖了标准 SQL 的大部分语法,包括 DDL 和 DML,以及配套的各种函数,用户管
理及权限管理,数据的备份与恢复。

1.1.1.3 多样化引擎

ClickHouse 和 MySQL 类似,把表级的存储引擎插件化,根据表的不同需求可以设定不同
的存储引擎。目前包括合并树、日志、接口和其他四大类 20 多种引擎。

1.1.1.4 高吞吐写入能力

ClickHouse 采用类 LSM Tree的结构,数据写入后定期在后台 Compaction。通过类 LSM tree的结构,ClickHouse 在数据导入时全部是顺序 append 写(与Kafka的读写类似),写入后数据段不可更改,在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性,充分利用了磁盘的吞吐能力,即便在 HDD 上也有着优异的写入性能。
官方公开 benchmark 测试显示能够达到 50MB-200MB/s 的写入吞吐能力,按照每行
100Byte 估算,大约相当于 50W-200W 条/s 的写入速度。

1.1.1.5 数据分区与线程级并行

ClickHouse 将数据划分为多个 partition,每个 partition 再进一步划分为多个 index
granularity(索引粒度),然后通过多个 CPU核心分别处理其中的一部分来实现并行数据处理。在这种设计下,单条 Query 就能利用整机所有 CPU。极致的并行处理能力,极大的降低了查询延时。

所以,ClickHouse 即使对于大量数据的查询也能够化整为零平行处理。但是有一个弊端
就是对于单条查询使用多 cpu,就不利于同时并发多条查询。所以对于高 qps 的查询业务,ClickHouse 并不是强项。

1.1.1.6 性能对比

某网站精华帖,中对几款数据库做了性能对比。
1、单表查询
大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
2、关联查询

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
结论: ClickHouse 像很多 OLAP 数据库一样,单表查询速度由于关联查询,而且 ClickHouse的两者差距更为明显。

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
                      您的支持是我创作的无限动力

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
                      希望我能为您的未来尽绵薄之力

大数据技术之ClickHouse---入门篇---介绍,Clickhouse,大数据,clickhouse,学习
                      如有错误,谢谢指正;若有收获,谢谢赞美文章来源地址https://www.toymoban.com/news/detail-621816.html

到了这里,关于大数据技术之ClickHouse---入门篇---介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据ClickHouse(五):数据库引擎介绍与实例演示

    文章目录 数据库引擎介绍与实例演示 一、Ordinary默认数据库引擎 二、MySQL数据库引擎

    2024年02月03日
    浏览(37)
  • 【数据库学习】ClickHouse(ck)

    是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 按列存储,列越多速度越慢; 按列存储,数据更容易压缩(类型相同、区分度);==》每次读取的数据就更多,更少的io。 聚合性能高; 类sql操作;仅支持数据的查询、批量写入、批量删除。 用于磁盘查询,同时也利用

    2024年02月02日
    浏览(47)
  • ClickHouse(一):ClickHouse介绍及OLAP场景特征

    目录 1. ClickHouse与其特性 ​​​​​​​2. 什么是ClickHouse ​​​​​​​3. OLAP场景的特征 进入正文前,感谢宝子们订阅专题、点赞、评论、收藏!关注IT贫道,获取高质量博客内容! 在大数据处理场景中,流处理和批处理使用到的技术大致如下: 批处理会将源业务系统

    2024年02月14日
    浏览(40)
  • ClickHouse基础知识(一):ClickHouse 入门

    ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的 列式存储数据库 (DBMS),使用 C++ 语言编写,主要用于 在线分析处理查询(OLAP) ,能够使用 SQL 查询实时生成分析数据报告。 以下面的表为例: 1)采用行式存储时,数据在磁盘上的组织结构为: 好处是想查某个人所有的属性时,

    2024年02月03日
    浏览(30)
  • 【入门篇】ClickHouse最优秀的开源列式存储数据库

    ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 在传统的行式数据库系统中,数据按如下顺序存储: Row WatchID JavaEnable Title GoodEvent EventTime #0 89354350662 1 Investor Relations 1 2016-05-18 05:19:20 #1 90329509958 0 Contact us 1 2016-05-18 08:10:20 #2 89953706054 1 Mission 1 2016-05-18 07:38:00 #N …

    2024年02月04日
    浏览(34)
  • 结合云计算的最新技术和现状,介绍云计算基础知识、开源分布式数据库Clickhouse、可视化数据分析工具、分布式链路跟踪系统Pinpoint、数据湖存储系统Pulsar等

    作者:禅与计算机程序设计艺术 2019年,“云计算”将成为“经济全球化”的热门词汇之一,2020年全球云计算市场规模预计达到1万亿美元。中国是继美国、英国之后,成为全球第四大云服务提供商。华为、腾讯、阿里巴巴等互联网巨头纷纷布局云计算领域,各家公司纷纷推出

    2024年02月08日
    浏览(38)
  • clickhouse的嵌套数据结构Tuple、Array与Nested类型介绍和使用示例

    Tuple 是 ClickHouse 数据库中的一种数据类型,它允许在一个字段中存储由不同数据类型组成的元组(tuple)。 元组可以包含任意数量的值,并且每个值可以是不同的数据类型,如 int 、 float 、 string 、 date 等。 例如,以下是一个 clickhouse Tuple 类型的例子: (1, \\\'John\\\', 12.5, Date(\\\'2021-0

    2024年02月14日
    浏览(37)
  • ClickHouse学习笔记(六):ClickHouse物化视图使用

    ClickHouse 的物化视图是一种查询结果的持久化,它的存在是为了带来查询效率的提升。用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select

    2024年01月17日
    浏览(33)
  • clickhouse介绍以及安装

    ClickHouse是一个快速、高可用、分布式的列式数据库管理系统(DBMS),专门用于在线分析处理(OLAP)工作负载。它由Yandex团队开发,最初用于自己的内部数据分析任务,后来在2016年开源。 ClickHouse使用列式存储引擎,它将数据按列存储在磁盘上,而不是按行存储。这种存储方

    2024年02月05日
    浏览(25)
  • clickhouse介绍

      ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的用于 在线分析处理查询 (OLAP :Online Analytical Processing) MPP架构 的 列式存储数据库 (DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。 clickhouse可以做用户行为分析,流

    2024年02月10日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包