Flink/Doris生产环境方案选型的一些思考

这篇具有很好参考价值的文章主要介绍了Flink/Doris生产环境方案选型的一些思考。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。

以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会遇到的问题。

这个问题非常「实在」也很「接地气」,因为这些技术选型问题在生产环境客观存在,更关系稳定性和成本问题。

如果大家在面试中被问到了,也是一个很好的问题。

问题和思考

目前很多公司的大部分业务完全基于Flink计算引擎来搭建实时数据链路,尤其是在大流量/较为复杂业务背景/强时效性场景中,无论是做关联,还是做指标分析,都有明显优势,Flink在这些场景不可替代。但是在一些场景中,也存在很多问题,我们随便举几个例子:

  • 复杂的多表关联分析,在Flink中实现较为完美的多源关联/多维度表关联比较困难

这个场景相信大家都遇到过,在多源/大数据规模下做实时任务,要考虑的问题太多太多,一不小心就会踩坑,比如大家经常遇到的join key热点问题,TTL问题;维度表本身也会遇到查询瓶颈,所以又会带来缓存和限流问题等;

  • 指标口径频繁变更

这个大家应该不陌生,在Flink中直接生产多指标,这个任务会变得非常敏感,因为你大概率会遇到状态不兼容问题、数据回溯问题,主备任务的测试切换问题等等,简直不要太离谱;

  • 小规模非核心场景

在Flink侧做这类任务有点杀鸡用牛刀的意思,成本较高,投入产出比也很低;

所以如果我们的场景是完全基于Flink为主+OLAP查询为辅助的场景,他的优势很明显,劣势也暴露无疑。

换个思路

所以,在上面的一些场景下,不妨换个思路。我们把计算和存储下移到OLAP侧,利用Doris/StarRocks等数据库的能力,降低数仓链路的开发和维护成本。

我们用Doris作为核心存储和计算介质,主要面向近实时场景。如果建立这样的目标,我能想到的几点要做的:

  • 开发和测试平台

这个不用详细展开,相当于开发换成了Doris SQL;

  • 数据建模工具

例如表元数据、维度指标管理、Doris建模推荐等;

  • 数据质量

也要做质量检测和准入机制;

  • 数据治理

例如表的热度、慢sql检测、成本、权限问题。

综合来看

基于上面两个大的思路,我们都可以基于他们做一体化解决方案平台。当然很多公司多多少少都会这么去做,只是处在的发展阶段不同。

这样的话,我们在综合考虑业务场景、数据规模、开发和迭代成本后,技术方案就可以在两个大方向上做灵活选择。

Flink/Doris生产环境方案选型的一些思考,flink,大数据300万字!全网最全大数据学习面试社区等你来!

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

Flink/Doris生产环境方案选型的一些思考,flink,大数据

Flink/Doris生产环境方案选型的一些思考,flink,大数据

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半,社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」文章来源地址https://www.toymoban.com/news/detail-781678.html

到了这里,关于Flink/Doris生产环境方案选型的一些思考的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Flink CDC和Flink SQL构建实时数仓Flink写入Doris

    软件环境 Flink1.13.3 Scala 2.12 doris 0.14 一、MySQL 开启binlog日志、创建用户 1.开启bin log MySQL 8.0默认开启了binlog,可以通过代码show variables like \\\"%log_bin%\\\";查询是否开启了,show variables like \\\"%server_id%\\\";查询服务器ID。 上图分别显示了bin long是否开启以及bin log所在的位置。 2.创建用户 C

    2024年02月02日
    浏览(78)
  • Flink读写Doris操作介绍

    ​ Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。 Flink操作Doris修改和删除只支持在 Unique Key 模型上 pom.xml加入依赖 创建测试库测试表 Doris 和 Flink 列类型映射关系 Doris Type Flink Type NULL_TYPE

    2024年02月12日
    浏览(42)
  • flink streamload写入doris

    官方教程详细介绍了基于flink 1.16的各种写入方式,本文主要介绍的是基于flink 1.13的RowData 数据流(RowDataSerializer)写入

    2024年02月04日
    浏览(50)
  • Doris+Flink搭建数据平台

    Doris 作为一款开源的 MPP 架构 OLAP 数据库,能够运行在绝大多数主流的商用服务器上。 安装:官网Doris安装 务必关注点 : 1 设置系统最大打开文件句柄数 2 Linux 操作系统版本需求 3 软件需求(Java,GCC) 4 机器角色分配(下图画线部分是重点,预防脑裂!) 设计好前置环境,开始

    2024年02月13日
    浏览(53)
  • Flink+Doris 实时数仓

    Doris基本原理 Doris基本架构非常简单,只有FE(Frontend)、BE(Backend)两种角色,不依赖任何外部组件,对部署和运维非常友好。架构图如下 可以 看到Doris 的数仓架构十分简洁,不依赖 Hadoop 生态组件,构建及运维成本较低。 FE(Frontend)以 Java 语言为主,主要功能职责: 接收用户

    2024年02月07日
    浏览(51)
  • 生态扩展:Flink Doris Connector

    官网地址: https://doris.apache.org/zh-CN/docs/dev/ecosystem/flink-doris-connector flink的安装: flink环境配置:vim /etc/profile 复制到flink的lib目录 doris官网:https://doris.apache.org/docs/ecosystem/flink-doris-connector

    2024年02月06日
    浏览(42)
  • Apache Doris 系列: 基础篇-Flink SQL写入Doris

    本文介绍 Flink SQL如何流式写入 Apache Doris,分为一下几个部分: Flink Doris connector Doris FE 节点配置 Flink SQL 写 Doris Flink Doris connector 本质是通过Stream Load来时实现数据的查询和写入功能。 支持二阶段提交,可实现Exatly Once的写入。 1)需在 apache-doris/fe/fe.conf 配置文件添加如下配置

    2023年04月08日
    浏览(48)
  • Apache Doris (六十四): Flink Doris Connector - (1)-源码编译

     🏡 个人主页:IT贫道-CSDN博客   🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~  🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频 目录 1. Flink与Doris版本兼容

    2024年01月18日
    浏览(56)
  • Mysql 数据同步到 ES 的技术方案选型和思考

    ES 的几个显著特点,能有效补足 MySQL 在企业级数据操作场景的缺陷 文本搜索能力 :ES 是基于倒排索引实现的搜索系统,配合多样的分词器,在文本模糊匹配搜索上表现得比较好,业务场景广泛。 多维筛选性能好 :亿级规模数据使用宽表预构建(消除 join),配合全字段索引

    2024年04月09日
    浏览(51)
  • flink+kafka+doris+springboot集成例子

    目录 一、例子说明 1.1、概述 1.1、所需环境 1.2、执行流程  二、部署环境 2.1、中间件部署 2.1.1部署kakfa 2.1.1.1 上传解压kafka安装包 2.1.1.2 修改zookeeper.properties 2.1.1.3 修改server.properties 2.1.1.3 启动kafka 2.1.2、部署flink 2.1.2.1 上传解压flink安装包  2.1.2.1 修改flink配置 2.1.2.3 flink单节

    2024年02月14日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包