kafka的初步认识

这篇具有很好参考价值的文章主要介绍了kafka的初步认识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是Kafka?

Kafka的增长很快。财富500强企业中超过三分之一使用卡夫卡。这些公司包括十大旅游公司,十大银行中的七家,十大保险公司中的八家,十大电信公司中的九家,等等。LinkedIn,微软(Microsoft)和Netflix每天用Kafka处理一兆(1,000,000,000,000)的信息。Kafka用于实时数据流,收集大数据,或做实时分析(或两者兼而有之)。Kafka与内存中的微服务一起使用以提供耐用性,并且可以用于向CEP(复杂事件流式传输系统)和IoT / IFTTT式自动化系统提供事件。

##为什么选择Kafka?

Kafka通常用于实时流式数据体系结构以提供实时分析。由于Kafka是一个快速,可扩展,耐用和容错的发布、订阅消息传递系统,Kafka被用于JMS,RabbitMQ和AMQP可能因为数量和响应速度而不被考虑的情况。Kafka具有更高的吞吐量,可靠性和复制特性,使其适用于跟踪服务呼叫(跟踪每个呼叫)或跟踪传统MOM可能不被考虑的物联网传感器数据。

Kafka可以与Flume / Flafka,Spark Streaming,Storm,HBase,Flink和Spark一起工作,以实时接收,分析和处理流数据。Kafka是用于提供Hadoop的数据流。 Kafka代理支持在Hadoop或Spark中进行低延迟后续分析的大量消息流。此外,kalfka(一个子项目)可用于实时分析。

Kafka用例

简而言之,卡夫卡用于流处理,网站活动跟踪,度量收集和监控,日志聚合,实时分析,CEP,将数据导入到Spark中,将数据导入到Hadoop,CQRS,重播消息,错误恢复,并保证内存计算(微服务)的分布式提交日志。

谁使用Kafka?

许多处理大量数据的大公司使用Kafka。 LinkedIn起源于它,用它来跟踪活动数据和运营指标。Twitter使用它作为Storm的一部分来提供流处理基础设施。Square使用Kafka作为公共汽车,将所有系统事件转移到各种Square数据中心(日志,自定义事件,度量标准等),输出到Splunk,Graphite(仪表板)以及Esper-like / CEP警报系统。Spotify,Uber,Tumbler,Goldman Sachs,PayPal,Box,Cisco,CloudFlare和Netflix等公司也使用这种方法。

为什么Kafka如此受欢迎?

Kafka的操作简单。建立和使用Kafka后,很容易明白Kafka是如何工作的。 然而,Kafka很受欢迎的主要原因是它的出色表现。它是稳定的,提供可靠的持久性,具有灵活的发布 - 订阅/队列,可与N个消费者群体进行良好扩展,具有强大的复制功能,为制作者提供可调整的一致性保证,并在碎片级别提供保留排序(即Kafka 主题分区)。此外,Kafka可以很好地处理有数据流处理的系统,并使这些系统能够聚合,转换并加载到其他商店。 但是,如果Kafka速度缓慢,那么这些特点都不重要。 Kafka最受欢迎的原因是Kafka的出色表现。

为什么Kafka如此快?

Kafka非常依赖OS内核来快速移动数据。它依靠零拷贝的原则。Kafka使您能够将数据记录批量分块。这些批次的数据可以从生产者到文件系统(Kafka主题日志)到消费者端到端地看到。批处理允许更高效的数据压缩并减少I / O延迟。Kafka写入不可变的提交日志到磁盘顺序,从而避免随机磁盘访问和慢磁盘寻找。Kafka通过分片提供了横向扩展。它将一个主题日志分成数百个(可能是数千个)分区到数千个服务器。这个分解允许Kafka处理巨大的负载。

Kafka流媒体体系结构

Kafka最常用于将数据实时传输到其他系统。 Kafka是一个中间层,可以将您的实时数据管道解耦。Kafka

kafka的初步认识

					*卡夫卡流式体系结构图*

复制

现在让我们真正回答这个大问题。

什么是Kafka?

Kafka是一个分布式流媒体平台,用于发布和订阅记录流。Kafka用于容错存储。 Kafka将主题日志分区复制到多个服务器。Kafka旨在让您的应用程序处理记录。Kafka速度很快,通过批处理和压缩记录来高效地使用IO。Kafka用于解耦数据流。Kafka用于将数据流式传输到数据湖,应用程序和实时流分析系统。

kafka的初步认识

						*Kafka解耦数据流*

复制

Kafka是多面手

来自客户端和服务器的Kafka通信使用基于TCP的有线协议进行版本化和记录。Kafka承诺保持与老客户的向后兼容性,支持多种语言。有C#,Java,C,Python,Ruby等多种语言的客户端。Kafka生态系统还提供了REST代理,可以通过HTTP和JSON轻松集成,从而使集成变得更加简单。Avro和架构注册表允许客户以多种编程语言制作和读取复杂的记录,并允许记录的演变。Kafka是真正的多面手。

Kafka很有用

Kafka允许您构建实时流数据管道。

您可以使用Kafka来帮助收集指标/关键绩效指标,汇总来自多个来源的统计信息,并实施事件采购。您可以将其与微服务(内存)和参与者系统一起使用,以实现内存中服务(分布式系统的外部提交日志)。

您可以使用Kafka在节点之间复制数据,为节点重新同步以及恢复状态。虽然Kafka主要用于实时数据分析和流处理,但您也可以将其用于日志聚合,消息传递,点击流跟踪,审计跟踪等等。

在这个数据科学和分析是一个大问题的世界里,捕获数据到数据湖和实时分析系统也是一件大事。而且由于Kafka可以承受这种剧烈的使用情况,Kafka是一个大成就。

Kafka有可扩展的消息存储

Kafka是一个很好的记录/信息存储系统。Kafka就像提交日志存储和复制的高速文件系统一样。这些特点使Kafka适用于各种应用场合。写入Kafka主题的记录会持久保存到磁盘并复制到其他服务器以实现容错。由于现代硬盘速度很快,而且相当大,所以这种硬盘非常适合,非常有用。Kafka生产者可以等待确认,直到该消息复制,信息会一直显示为制片人不完整。Kafka磁盘结构可以很好地扩展。现代磁盘驱动器在以大批量流式写入时具有非常高的吞吐量。此外,Kafka客户和消费者可以控制读取位置(偏移量),这允许在重要错误(即修复错误和重放)时重播日志等用例。而且,由于每个消费者群体都会跟踪偏移量,所以我们在这篇Kafka架构文章中提到,消费者可以非常灵活(即重放日志)。

Kafka有记录保留

Kafka集群保留所有公布的记录。如果您没有设置限制,它将保留记录,直到磁盘空间不足。例如,您可以设置三天或两周或一个月的保留策略。主题日志中的记录可供消耗,直到被时间,大小或压缩丢弃为止。消费速度不受Kafka的大小影响,总是写在主题日志的末尾。文章来源地址https://www.toymoban.com/news/detail-493823.html

到了这里,关于kafka的初步认识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【电商AI工具一期】AI引领电商新风潮:20款AI电子商务工具盘点,让你实现财富增长!

    注: 本文可自由转载 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000+优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的创业公司提供展示窗口,迎接未来的AI时代。未来百科,每天

    2024年04月11日
    浏览(37)
  • 【简单认识zookeeper+kafka分布式消息队列集群的部署】

    Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已

    2024年02月13日
    浏览(32)
  • Kafka:什么是kafka? ①

            kafka是一种分布式的,基于发布/订阅的消息系统。它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    2024年02月13日
    浏览(16)
  • 什么是kafka,如何学习kafka,整合SpringBoot

    目录 一、什么是Kafka,如何学习 二、如何整合SpringBoot 三、Kafka的优势   Kafka是一种分布式的消息队列系统,它可以用于处理大量实时数据流 。学习Kafka需要掌握如何安装、配置和运行Kafka集群,以及如何使用Kafka API编写生产者和消费者代码来读写数据。此外,还需要了解Ka

    2024年02月10日
    浏览(25)
  • Kafka是什么,以及如何使用SpringBoot对接Kafka

    上手第一关,手把手教你安装kafka与可视化工具kafka-eagle 架构必备能力——kafka的选型对比及应用场景 Kafka存取原理与实现分析,打破面试难关 防止消息丢失与消息重复——Kafka可靠性分析及优化实践 继上一次教大家手把手安装kafka后,今天我们直接来到入门实操教程,也就是

    2024年02月08日
    浏览(26)
  • Kafka题集 - kafka中Zookeeper的作用是什么?

    01. 如何查看kafka 元数据存储目录? 以 kafka 伪集群来看下 Zookeeper 中存储的 Kafka 信息。在配置 kafka 伪集群时,在kafka 配置文件 server.properties 中配置了连接 zookeeper 集群的地址: Kafka的元数据存储在Zookeeper中,而不是本地文件系统中。因此,要查看Kafka的元数据存储目录,您需

    2024年02月09日
    浏览(27)
  • Kafka系列 - kafka中Zookeeper的作用是什么?

    01. 如何查看kafka 元数据存储目录? 以 kafka 伪集群来看下 Zookeeper 中存储的 Kafka 信息。在配置 kafka 伪集群时,在kafka 配置文件 server.properties 中配置了连接 zookeeper 集群的地址: Kafka的元数据存储在Zookeeper中,而不是本地文件系统中。因此,要查看Kafka的元数据存储目录,您需

    2024年02月11日
    浏览(28)
  • 什么是kafka?怎么部署Windows版本的kafka

    Apache Kafka是一个分布式流处理平台,主要用于构建实时数据流管道和流式应用程序。它由LinkedIn公司创建,并在2011年成为Apache软件基金会的开源项目。Kafka被设计为高吞吐量、可扩展性强、持久性强、容错性好的分布式消息系统,广泛应用于大数据处理领域。 Kafka的主要特点

    2024年04月15日
    浏览(12)
  • 【Kafka每日一问】Kafka重平衡逻辑是什么样的?

    在Kafka中,消费者重平衡(Consumer Rebalance)是指消费者加入或退出消费者组时,以及消费者组内的消费者发生宕机、重启等异常情况时,通过重新分配分区(Partition)来实现消费者负载均衡的过程。Kafka消费者重平衡是Kafka中核心的功能之一,能够有效地保证消费者组内消息的

    2024年01月17日
    浏览(38)
  • kafka的堆内存大小对kafka的影响以及为什么堆内存大一些kafka会更稳定

    堆内存是Java虚拟机(JVM)用于存储运行时数据的一部分内存。对于Kafka Broker,它是一个由Java编写的分布式消息系统,因此Kafka Broker的性能和稳定性会受到堆内存大小的影响。 以下是堆内存大小对Kafka的一些详细影响: 存储和缓存消息: Kafka Broker使用内存来存储消息,以支持

    2024年01月19日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包