数据仓库系列:StarRocks的简单试用及与clickhouse的对比

这篇具有很好参考价值的文章主要介绍了数据仓库系列:StarRocks的简单试用及与clickhouse的对比。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 搭建测试环境

docker pull  starrocks/allin1-ubuntu:2.5.4
docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd starrocks/allin1-ubuntu:2.5.4
docker ps

2. 简单测试

2.1. 使用mysql client连接

mysql -P 9030 -h 127.0.0.1 -u root --prompt="StarRocks > "

#创建用户
CREATE USER tom@'%' IDENTIFIED BY '123456';
GRANT ALL ON *.* TO 'tom'@'%' ;

数据仓库系列:StarRocks的简单试用及与clickhouse的对比

2.2. 测试SQL

# 创建数据库
CREATE DATABASE test;

# 使用数据库
USE test;

# 创建表
CREATE TABLE IF NOT EXISTS sr_member (
    sr_id            INT,
    name             STRING,
    city_code        INT,
    reg_date         DATE,
    verified         BOOLEAN
)
PARTITION BY RANGE(reg_date)
(
    PARTITION p1 VALUES [('2022-03-13'), ('2022-03-14')),
    PARTITION p2 VALUES [('2022-03-14'), ('2022-03-15')),
    PARTITION p3 VALUES [('2022-03-15'), ('2022-03-16')),
    PARTITION p4 VALUES [('2022-03-16'), ('2022-03-17')),
    PARTITION p5 VALUES [('2022-03-17'), ('2022-03-18'))
)
DISTRIBUTED BY HASH(city_code)
PROPERTIES(
    "replication_num" = "1"
);

# 插入数据
INSERT INTO sr_member VALUES (001,"tom",100000,"2022-03-13",true), (002,"johndoe",210000,"2022-03-14",false), (003,"maruko",200000,"2022-03-14",true), (004,"ronaldo",100000,"2022-03-15",false), (005,"pavlov",210000,"2022-03-16",false), (006,"mohammed",300000,"2022-03-17",true);

INSERT INTO sr_member WITH LABEL insertDemo VALUES (0010,"张三",100000,"2022-03-13",true), (0012,"李四",210000,"2022-03-14",false);

# 查询数据
SELECT sr_id, name FROM sr_member;
SELECT sr_id, name FROM sr_member PARTITION (p2);
SELECT sr_id, name FROM sr_member PARTITION (p1,p2);

3. 与clickhouse的区别

3.1. 整体区别

StarRocks 与 ClickHouse 是两款基于 MPP 架构的列式数据库管理系统,都可以提供高性能的 OLAP 分析能力。 但是它们在功能、性能和使用场景上也有一些区别。 总结如下:

  • StarRocks 与 ClickHouse 最大的区别就在于对于 join 的处理上。 ClickHouse 虽然提供了 join 的语义,但使用上对大表关联的能力支撑较弱,复杂的关联查询经常会引起 OOM。 StarRocks 有更强的 join 能力,可以支持更复杂的查询。 StarRocks 还提供了基于代价的优化器(CBO),可以自动优化 join 的顺序和类型。
  • ClickHouse 更适用于大宽表的场景,可以考虑将需要进行关联的表打平成宽表,放入 ClickHouse 中。 StarRocks 对于星型或雪花模型的兼容度更好,可以建立星型或雪花模型应对维度数据的变更。
  • StarRocks 可以支持数千用户同时进行分析查询,在部分场景下,高并发能力能够达到万级。 ClickHouse 对高并发的业务并不友好,建议针对大量短查询的分析型场景每秒最多查询100次。
  • StarRocks 支持秒级的数据导入和实时更新,提供准实时的服务能力。 ClickHouse 的数据导入和更新相对较慢,更适合静态数据的分析。
  • StarRocks 兼容 MySQL 协议和生态,可以使用 MySQL 的客户端和工具访问 StarRocks。 ClickHouse 不完全兼容 MySQL 协议和生态,需要使用专门的客户端和工具访问 ClickHouse。

3.2. SQL加速对比

  • 都支持Colocate Join,但两者的写法不同,StarRocks 需要在建表时指定colocate_with
  • 都支持Lateral Join
  • 都支持物化视图, 但StarRocks 除支持单表的物化视图外,还支持异步的物化视图

区别点:StarRocks 提供了基于代价的优化器(CBO),可以自动优化 join 的顺序和类型

3.3. 内置函数区别

  • ClickHouse的内置函数种类更多,详见下图的对比
  • ClickHouse有table function
  • 两者都支持窗口函数
  • 两者都支持聚合函数
    数据仓库系列:StarRocks的简单试用及与clickhouse的对比

3.4. table engine表引擎区别

ClickHouse 的表引擎目前存在2个缺点:

  • ClickHouse 对高并发的业务并不友好,建议针对大量短查询的分析型场景每秒最多查询100次。
  • ClickHouse 的数据导入和更新相对较慢,更适合静态数据的分析
    数据仓库系列:StarRocks的简单试用及与clickhouse的对比

3.5. 数据加载

针对数据加载方面,StarRocks 提供的工具更多,不仅能加载离线数据,还集成flink实时加载CDC数据

3.6. 表管理

针对这块,ClickHouse创建分布式表是麻烦的,痛苦的,需要在集群的每一个节点的手工创建本地表、再创建分布式表
但StarRocks这块还像一个MPPDB数据,通过一条create DML即可完成创建分布式表。

另外,StarRocks 提供了更的表管理工具。

参考

StarRocks deploy_in_docker文章来源地址https://www.toymoban.com/news/detail-493327.html

到了这里,关于数据仓库系列:StarRocks的简单试用及与clickhouse的对比的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • starrocks3.0 编写自定义UDF java/scala版本 clickhouse中countResample

    通过自定义UDAF 实现clickhouse中的内置函数 countResample  Java UDF | StarRocks java scala都可以 java可以  scala一直报错类找不到 实际上类在的

    2024年01月25日
    浏览(37)
  • ClickHouse 存算分离改造:小红书自研云原生数据仓库实践

    ClickHouse 作为业界性能最强大的 OLAP 系统,在小红书内部被广泛应用于广告、社区、直播和电商等多个业务领域。然而,原生 ClickHouse 的 MPP 架构在运维成本、弹性扩展和故障恢复方面存在较大局限性。为应对挑战,小红书数据流团队基于开源 ClickHouse 自主研发了云原生实时数

    2024年02月09日
    浏览(42)
  • clickhouse系列3:clickhouse分析英国房产价格数据

     本文使用的数据集下载链接: https://download.csdn.net/download/shangjg03/88478086 该数据集包含有关英格兰和威尔士自1995年起到2023年的房地产价格的数据,超过2800万条记录,未压缩形式的数据集大小超过4GB,在ClickHouse中需要约306MB。

    2024年02月10日
    浏览(31)
  • 大数据系列——什么是ClickHouse?ClickHouse有什么用途?

    目录 一、什么是ClickHouse 二、ClickHouse有什么用途 三、ClickHouse的不足 四、适用场景 五、ClickHouse特点 六、ClickHouse VS MySQL 七、类SQL 语句  八、核心概念 clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的 列式存储数据库, 使用 C++ 语言编写; 一款面向 OLAP 的数据库 ClickHouse支持类

    2024年01月22日
    浏览(41)
  • clickhouse ssb-dbgen数据构造 及 clickhouse-benchmark简单压测

    1. 数据样例 官方文档有给出一批数据样例。优点是比较真实,缺点是太大了,动辄上百G不适合简单小测试 Anonymized Yandex.Metrica Dataset Star Schema Benchmark WikiStat Terabyte of Click Logs from Criteo AMPLab Big Data Benchmark New York Taxi Data OnTime 相对来说 ssb-dbgen工具 生成的表比较简单,数据量也可

    2024年02月11日
    浏览(34)
  • 大数据ClickHouse(十四):Integration系列表引擎

    文章目录 Integration系列表引擎 一、HDFS 二、MySQL

    2024年01月17日
    浏览(44)
  • ClickHouse--04--数据库引擎、Log 系列表引擎、 Special 系列表引擎

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ClickHouse 中支持在创建数据库时指定引擎,目前比较常用的两种引擎为默认引擎 和 MySQL 数据库引擎。 Ordinary 就是 ClickHouse 中默认引擎,如果不指定数据库引擎创建的就是Ordinary 数据库引擎,在这种数据

    2024年02月20日
    浏览(53)
  • 大数据ClickHouse(十二):MergeTree系列表引擎之CollapsingMergeTree

    文章目录 MergeTree系列表引擎之CollapsingMergeTree 一、CollapsingMergeTree基本讲解 二、测试实例

    2024年02月19日
    浏览(43)
  • 【小程序八股文】系列之篇章一 | 小程序基础及与其他产品区别

    下面是关于笔者我小程序八股文笔记,终于也来博客做同步的更新啦。下面给个图来概览一下吧。 这里是具体的目录情况,但在我的博客share中,我并不会完全按照下面篇章来。 那么在这里的第一篇章,笔者我主要想介绍两个部分的内容:一个是小程序的基础/背景,另外一

    2024年01月16日
    浏览(39)
  • Postman系列番外篇 - postman web版介绍及与PC版的对比

    近期postman官方推出了postman web版本,无需安装客户端即可使用 那么web端的postman可以替代pc版的postman吗? 打开postman的下载页面:https://www.postman.com/downloads/ 在下载按钮之下还有一个标题“Postman on the web”(使用web版postman) 点击下方按钮“Try the Web Version” 进入web版 postman 的主

    2024年02月02日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包