大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

1年前作者：失散多年的测试分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一.Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop的核心是yarn、HDFS和Mapreduce。yarn是资源管理系统，实现资源调度，yarn是Hadoop2.0中的资源管理系统，总体上是master/slave结构。对于yarn可以粗浅将其理解为进行资源分配的。 Hdfs是分布式文件存储系统，用于存储海量数据；mapreduce是并行处理框架，实现任务分解和调度。Hadoop可用于搭建大型数据仓库，对海量数据进行存储、分析、处理和统计。

二.Hive

想要使用HDFS分布式文件存储系统，必须通过Hive进行。Hive也是产品经理经常能听到的词。也可以浅显地将Hive理解为数据仓库。

Hive 是构建在Hadoop HDFS上的数据仓库，可以将结构化的数据文件映射成一张数据库表，并提供类SQL查询功能，主要完成海量数据的分析和计算。本质用于将HQL（Hive SQL）转化成MapReduce任务来执行。

优点：简化数据开发流程及提高了效率。

Hive表其实是HDFS的目录/文件

Hive中的元数据包括：表的名字、表的列、分区及属性、表的数据所在目录等

三.Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。

Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

四.Flink

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算

Flink可以同时进行批处理和流处理。

批处理和流处理是两种截然不同的数据处理方式，Flink更适合流处理。

核心特点：

高吞吐、低延迟
结果的准确性
精确一次（exactly-once）的状态一致性保证
可以与众多常用存储系统连接
高可用，支持动态扩展

Flink经常会和kafka结合使用，能一条条地处理数据。

五.Spark

Spark streaming是spark体系中的一个面向流数据的流式实时计算框架；可以实现高吞吐量的，具备容错机制的实时流数据的处理；

Spark streaming接收kafka、Flume、HDFS、套接字等各种来源实时输入数据，进行处理，处理后结构数据可存储到文件系统、数据库，或显示在可视化图像中；Dashboards：类似图形接收界面

Spark和hive结合的比较好，spark和Flink都是分布式流数据流引擎，能对集群资源进行分配使用，确保大计算快速准确完成。

六.Hbase

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群.

HDFS是文件系统，能存储1G以上大量数据，HBase在HDFS之上提供了高并发的随机写和支持实时查询，这是HDFS不具备的。

HDFS是列式存储，查询更快。

一般Hbase会配合HDFS作为大数据架构。

七.ES

Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；通过倒排索引进行查询数据的，极大的提高了查询效率；

ES提供全文检索，大数据架构中用ES作为向前端提供接口计算的数据库。

测试可以配合使用Kibana工具进行索引查询ES数据，验证其数据的正确性。文章来源地址https://www.toymoban.com/news/detail-828023.html

到了这里，关于大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大数据平台安装实验: ZooKeeper、Kafka、Hadoop、Hbase、Hive、Scala、Spark、Storm
在大数据时代，存在很多开源的分布式数据采集、计算、存储技术，本实验将在熟练掌握几种常见Linux命令的基础上搭建几种常用的大数据采集、处理分析技术环境。相关安装包下载：链接：https://pan.baidu.com/s/1Wa2U3qstc54IAUCypcApSQ 提取码：lcd8 Hadoop大数据平台所需工具、软件
2023年04月09日
浏览(13)
处理大数据的基础架构，OLTP和OLAP的区别，数据库与Hadoop、Spark、Hive和Flink大数据技术
2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库这oracle比sql安全，强大多了，所以你需要学
2024年02月08日
浏览(6)
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅
作为一位Java大师，我始终追求着技术的边界，最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从\\\"是什么\\\"、\\\"为什么\\\"和\\\"怎么办\\\"三个角度，系统地介绍这些技术。 Hadoop Hadoop是一个开源的分布式计算
2024年02月03日
浏览(12)
大数据期资料2023 Beta版 - Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase详解
了解大数据概念、Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase等技术，包括特点、命令操作和启动关闭方法。获取2023年大数据资料Beta版。
2024年02月06日
浏览(61)
【天衍系列 01】深入理解Flink的 FileSource 组件：实现大规模数据文件处理
Apache Flink 是一个流式处理框架，被广泛应用于大数据领域的实时数据处理和分析任务中。在 Flink 中，FileSource 是一个重要的组件，用于从文件系统中读取数据并将其转换为 Flink 的数据流。本文将深入探讨 FileSource 的工作原理、用法以及与其他数据源的比较。 FileSource 是 Fli
2024年02月21日
浏览(7)
Hadoop+hive+flask+echarts大数据可视化之系统数据收集
谈到大数据的项目，一般以数据可视化为主体，收集大数据中的有用信息，存储到分布式存储系统hadoop中，由hive导入hadoop中存储的数据，使用HQL语句对数据进行分析，hive底层会将HQL语句转化成mapreduce程序，flask作为python语言的后台技术，可以连接hive将HQL语句的分析结
2023年04月13日
浏览(14)
【天衍系列 04】深入理解Flink的ElasticsearchSink组件：实时数据流如何无缝地流向Elasticsearch
Flink的Elasticsearch Sink是用于将Flink数据流（DataStream）中的数据发送到Elasticsearch的组件。它是Flink的一个连接器（Connector），用于实现将实时处理的结果或数据持续地写入Elasticsearch集群中的索引中。下面是一些关于Flink的Elasticsearch Sink的基础概念：数据源（Source）：Flink数据流
2024年02月20日
浏览(6)
基于Hadoop的MapReduce网站日志大数据分析（含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts）
需要本项目的可以私信博主！！！本项目包含：PPT，可视化代码，项目源码，配套Hadoop环境（解压可视化），shell脚本，MapReduce代码，文档以及相关说明教程，大数据集！本文介绍了一种基于Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统
2024年02月16日
浏览(34)
【大数据】图解 Hadoop 生态系统及其组件
在了解 Hadoop 生态系统及其组件之前，我们首先了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN，它们共同构成了 Hadoop 分布式计算框架的核心。 HDFS （ Hadoop Distributed File System ）：HDFS 是 Hadoop 的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。HDFS 主要
2024年02月11日
浏览(20)
大数据毕业设计Flink+Hadoop+Hive地铁客流量可视化地铁客流量预测交通大数据地铁客流量大数据交通可视化机器学习深度学习人工智能知识图谱数据可视化计算机毕业设计
河北传媒学院本科毕业论文开题报告专业小四号宋体班级小四号宋体姓名小四号宋体学号小四号宋体指导教师小四号宋体题目基于hadoop+spark的深圳市地铁运营的分析与可视化（1.内容包括：课题的来源及意义，国内外发展状况，本课题的研究目标、内容、方法、手
2024年03月19日
浏览(14)