大数据 - Kafka系列《一》- Kafka基本概念

这篇具有很好参考价值的文章主要介绍了大数据 - Kafka系列《一》- Kafka基本概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

🐶1.1 什么是kafka

🐶1.2 Kafka可以用来做什么

🐶1.3 kafka的特点

🥙1. 高吞吐量、低延迟

🥙2. 可扩展性

🥙3. 持久性、可靠性

🥙4. 容错性

🥙5. 高并发

🐶1.4 Kafka的基本架构

1. 🥙Producer:生产者

2. 🥙Broker：中间组件，存储数据

Topic：主题。类似于表的概念

partition：分区。类似于hbase里面的region的概念

3. 🥙Consumer：消费者

4. 🥙Zookeeper

Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统，现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性，许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。

一句话概括：Kafka 是一个分布式的基于发布/订阅模式的消息中间件，遵循先进先出的原则，分区内严格有序，但是不能保证全局的有序。

大数据 - Kafka系列《一》- Kafka基本概念,kafka,大数据,大数据,kafka,分布式

在业界主要应用于大数据实时流式计算领域，起解耦合和削峰填谷的作用。

大数据 - Kafka系列《一》- Kafka基本概念,kafka,大数据,大数据,kafka,分布式

总的来讲，Kafka 通常具有 3 重角色：

存储系统：通常消息队列会把消息持久化到磁盘，防止消息丢失，保证消息可靠性。Kafka 的消息持久化机制和多副本机制使其能够作为通用数据存储系统来使用。正常在公司都是存储的json串。
消息系统：Kafka 和传统的消息队列比如 RabbitMQ、RocketMQ、ActiveMQ 类似，支持流量削峰、服务解耦、异步通信等核心功能。
流处理平台(不主流）：Kafka 不仅能够与大多数流式计算框架完美整合，并且自身也提供了一个完整的流式处理库，即 Kafka Streaming。Kafka Streaming 提供了类似 Flink 中的窗口、聚合、变换、连接等功能。