离线数仓中，为什么用两个flume，一个kafka

7月前作者：青云游子分类：Toy博客阅读(36) 违法举报

这篇具有很好参考价值的文章主要介绍了离线数仓中，为什么用两个flume，一个kafka。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

实时数仓中，为什么没有零点漂移问题？
1. 因为flink直接取的事件时间
用kafka是为了速度快，并且数据不丢，那为什么既用了kafkachannel，也用了kafka，而不只用kafkachannel呢？
1. 因为需要削峰填谷
离线数仓中，为什么用两个flume，一个kafka，直接用taildirsource,kafkachannel,hdfssink不行吗？
1. 不行
2. kafka可以削峰填谷
3. 如果用kafkachannel，那么数据写到kafka，只剩event，没有header，无法解决零点漂移问题，而多加一个flume，可以在kafkasource中添加拦截器。

文章来源地址https://www.toymoban.com/news/detail-622910.html

到了这里，关于离线数仓中，为什么用两个flume，一个kafka的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

离线数仓（五）【数据仓库建模】

今天开始正式数据仓库的内容了, 前面我们把生产数据 , 数据上传到 HDFS , Kafka 的通道都已经搭建完毕了, 数据也就正式进入数据仓库了, 解下来的数仓建模是重中之重 , 是将来吃饭的家伙 ! 以及 Hive SQL 必须熟练到像喝水一样 ! 数据仓库 (dataware,简称 DW) 是

2024年03月26日
浏览(45)
阿里云生态离线数仓

功能齐全：10多年大数据建设沉淀完整的平台，覆盖数据开发治理的全生命周期简单易用：全图形化界面，SQL为主的数据开发方式安全稳定：双11日千万级任务稳定调度，金融级数据安全保障开放兼容：支持多种大数据引擎绑定，开放

2024年02月05日
浏览(22)
离线数仓建设之数据导出

为了方便报表应用使用数据，需将ADS各项指标统计结果导出到MySQL，方便熟悉 SQL 人员使用。创建car_data_report数据库： 1.1.2 创建表 ① 里程相关统计创建ads_mileage_stat_last_month表，存储里程相关统计数据。 ② 告警相关统计创建ads_alarm_stat_last_month表，存储告警相关的统计数据。

2024年03月16日
浏览(33)
【从0开始离线数仓项目】——新能源汽车数仓项目介绍

目录 1、数据仓库概念 2、项目需求及架构设计 3、集群资源规划设计 4、车辆日志字段说明数据仓库（Data Warehouse）是为企业提供数据支持，用以协助企业制定决策、改进业务流程和提高产品质量等方面的工具。它可以接收多种类型的输入数据，如业务数据、日志数据和爬虫

2024年02月13日
浏览(28)
尚硅谷大数据项目《在线教育之离线数仓》笔记004

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第9章数仓开发之DWD层 P049 P050 P051 P052 P053 P054 P055 P056 P057 P058 P059 P060 P061 P062 P063 P064 P065 P066 P067 P068 P069 P070 P049 第9章数仓开发之DWD层 DWD层设计要点：（1）DWD层的设计依据是维度建模理论，该层存储

2024年02月10日
浏览(31)
【从0开始离线数仓项目】——数据仓库的环境搭建（1）

目录一、服务器环境准备 1.2 编写集群分发脚本xsync 1.3 SSH无密登录配置 1.4 JDK准备 1.5 环境变量配置说明二、集群所有进程查看脚本三、Zookeeper安装 3.1 分布式安装部署 3.2 ZK集群启动停止脚本 3.3 客户端命令行操作 CentOS 7 怎么从命令行模式切换到图形界面模式切换至root权限

2024年02月13日
浏览(26)
尚硅谷大数据项目《在线教育之离线数仓》笔记007

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第12章报表数据导出 P112 01、创建数据表 02、修改datax的jar包 03、ads_traffic_stats_by_source.json文件 P113 P114 P115 P116 P117 P118 P119 P120 P121 P122【122_在线教育数仓开发回顾 04:23】 P112 01、创建数据表 02、修改d

2024年02月09日
浏览(26)
尚硅谷大数据项目《在线教育之离线数仓》笔记002

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录 P025 P026 P027 P028 P029 P030 P031 P032 P033 P034 P035 P036 P037 P038 P025 在Hive所在节点部署Spark P026 3 ）Hive on Spark 测试（1）启动hive客户端 [atguigu@hadoop102 hive]$ hive （2）创建一张测试表 hive (default) create table stud

2024年02月12日
浏览(18)
尚硅谷大数据项目《在线教育之离线数仓》笔记006

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第11章数仓开发之ADS层 P087 P088 P089 P090 P091 P092 P093 P094 P095 P096 P097 P098 P099 P100 P101 P102 P103 P104 P105 P106 P107 P108 P109 P110 P111 P087 第11章数仓开发之ADS层 11.1 流量主题 11.1.1 各来源流量统计 [atguigu@node001 ~]

2024年02月09日
浏览(25)
看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

20世纪70年代，MIT(麻省理工)的研究员致力于研究一种优化的技术架构，该架构试图将业务处理系统和分析系统分开，即将业务处理和分析处理分为不同层次，针对各自的特点采取不同的架构设计原则，MIT的研究员认为这两种信息处理的方式具有显著差别，以至于必须采取完

2024年02月08日
浏览(33)