Kafka吞吐量

这篇具有很好参考价值的文章主要介绍了Kafka吞吐量。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

kafka的架构和流程

小文件对HDFS影响:

解决办法:


kafka的架构和流程

⾸先Kafka从架构上说分为⽣产者Broker和消费者,每⼀块都进⾏了单独的优化,⽐如⽣产者快是因为数据的批量发送,Broker快是因为分区,分区解决了并发度的问题,⽽且⽂件是采取的顺序写的形式。顺序写就可以有效的减少磁盘寻址的时间其次它还采⽤了分段的概念,就是所谓的Segment,每⼀个Segment⼜包含⼀个索引⽂件和⼀个数据⽂件,通过这样的机制就保证写⼊速度是⾮常的快的。

还有⼀个就是最重要的零拷⻉技术的应⽤,零拷⻉其实是OS层⾯的⼀个技术,就是操作系统的PageCache利⽤这个操作系统的缓存⻚在加上调⽤操作系统的SendFile函数实现了对数据的处理提⾼了性能,所以采⽤零拷⻉技术之后就直接把进程之间的流拷⻉直接省略了,使⽤操作系统的Buffer从⽽⼤幅的提升了性能,因为数据传输的过程中省了⼀层,其实零拷⻉也是⽐较复杂的

Kafka吞吐量

因为Kafka的性能⽐较⾼所以当时我们数仓系统中,先通过Flume采集数据然后通过KafkaChannel放⼊Kafka中,下游使⽤Flume来做为消费者消费Kafka数据并存⼊HDFS中。

小文件对HDFS影响:

在Flume做消费者往HDFS上传输数据的时候遇到了很多问题,其中最重要的问题就是⼩⽂件的问题。因为它会从两个⽅⾯影响HDFS。1、针对NameNode来说,⾸先它会占⽤⼤量的存储空间,影响NameNode的存储性能,2、针对于MR来说,它会影响计算的性能,因为每⼀个⼩⽂件都会单独的⽣成⼀个Map任务,⼩⽂件过多就会导致MapTask任务过多从⽽影响计算的性能。

当时我们团队研究了一下,最后解决了这个问题,我们通过配置Flume的HDFS Sink来解决的:

首先Flume默认是根据event的数量来生成文件的,也就是说有多少个event就会有多少个文件,这样就会产生大量的小文件,每个event的数据大小是不一样的(有的大,有的小)

其次,我们通过查询官网上的解决办法最终找到了几个参数:

解决办法:

       1、rollInterval:这个参数是配置HDFSSink按照时间来滚动生成一个一个的文件,通过配置这个参数可以解决一段时间内生产的数据,但是有一个问题当时我们设置的是一个小时滚动生成一个文件,通常情况下都是符合预期的但是业务高峰期的时候只配置一个维度就不行了,所以我们还需要结合其他维度的配置才行。

        2、rollSize:这个参数是配置HDFS Sink按照文件大小来进行滚动生成文件的,我们当时设置的是128M,因为设置128M这个大小主要是对应了HDFS上边的快大小来设置的。HDFS上边每一个数据块的大小128M,所以这样设置是符合HDFS的存储习惯的,后期进行切片处理的时候操作也比较方便的。

        3、rollCount:对于这个参数我们当时设置的0,因为HDFSSInk默认是根据event个数来生成文件的,设置为0的意思就是禁用掉的逻辑,是Flume不能按照event个数据来生成文件。

Kafka吞吐量文章来源地址https://www.toymoban.com/news/detail-422239.html

到了这里,关于Kafka吞吐量的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Spring Boot与Apache Kafka实现高吞吐量消息处理:解决大规模数据处理问题

    现代数据量越来越庞大对数据处理的效率提出了更高的要求。Apache Kafka是目前流行的分布式消息队列之一。Spring Boot是现代Java应用程序快速开发的首选框架。综合使用Spring Boot和Apache Kafka可以实现高吞吐量消息处理。 Apache Kafka采用分布式发布-订阅模式具有高度的可扩展性和可

    2024年02月05日
    浏览(15)
  • 【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI

    【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI

            目录 0x00 响应时间和吞吐量(Response Time and Throughput) 0x01 相对性能(Relative Performance) 0x02 执行时间测量(Measuring Execution Time) 0x03 CPU 时钟(Clocking) 0x04 CPU时间 0x05 指令计数和 CPI 0x06 性能摘要(Performance Summary) 0x00 响应时间和吞吐量(Response Time and Throughput)

    2023年04月25日
    浏览(9)
  • 深入探究HDFS:高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

    深入探究HDFS:高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

    上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 在当今数据时代,数据的存储和处理已经成为了各行各业的一个关键问题。尤其是在大数据领域,海量数据的存储和处理已经成为了一个不可避免的问题。为了应对这个问题,分布式文件系统应运而生。Hadoo

    2024年02月08日
    浏览(6)
  • qps、tps、吞吐量

      tps全称为Transactions Per Second,指 服务器每秒处理的事务数 。常作为软件测试单位。   解释下这里 事务 的概念:一个事务指客户机向服务器发送请求,服务器做出反应的过程   一个事务的计时方式是从客户机发送请求时开始计时,收到服务器响应后结束计时。用1

    2023年04月10日
    浏览(12)
  • WiFi模块吞吐量测试

    WiFi模块吞吐量测试

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 在WiFi模块选型过程中,工程师会关注到WiFi模块的吞吐量,拿到样品之后,也会进行一个模块吞吐量的测试。本篇就以SKYLAB QCA9531 WiFi模块SKW99的测试角度出发,简单介绍一下WiFi模块怎么测试WiFi吞吐量。

    2024年02月09日
    浏览(10)
  • 了解区块链延迟和吞吐量

    大家鲜少提到如何正确地测量一个(区块链)系统,但它却是系统设计和评估过程中最重要的步骤。 系统中有许多共识协议、各种性能的变量和对可扩展性的权衡。 然而,直到目前都没有一种所有人都认同的可靠方法,能够让人进行苹果对比苹果这种同一范畴内的合理比较

    2024年02月02日
    浏览(9)
  • 如何提升SpringBoot项目的吞吐量?

    吞吐量是指系统在单位时间内成功处理请求的数量。当吞吐量不足以应对业务需求时,会导致请求Pile Up的情况发生,使系统不可用甚至宕机。提高吞吐量是保证系统可用性的有效手段之一。 当系统的吞吐量跟不上业务增长时,用户会感知到系统的响应变慢,严重时甚至会有\\\"访问不

    2024年02月08日
    浏览(8)
  • TPS、QPS、吞吐量,的计算公式

    TPS (transaction per second)代表每秒执行的事务数量,可基于测试周期内完成的事务数量计算得出。 TPS=事务数/时间(秒) 例如: 用户每分钟执行6个事务,TPS为6 / 60s = 0.10 TPS。 同时我们会知道事务的响应时间(或节拍):60秒完成6个事务,代表每个事务的响应时间或节拍为10秒。

    2024年02月09日
    浏览(8)
  • Rust中的高吞吐量流处理

    Rust中的高吞吐量流处理

    本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序。 最后,作者介绍了如何通过测量空闲和阻塞时间来优化流处理程序的性能,并将这些内容同步至Twitter和blog。 此外,作

    2024年02月14日
    浏览(12)
  • 计算机网络(速率、宽带、吞吐量、时延、发送时延)

    计算机网络(速率、宽带、吞吐量、时延、发送时延)

    单位: bit/s ,或 kbit /s 、 Mbit/s 、 Gbit /s 等。     例如 4 ´ 10 10  bit/s 的数据率就记为 40 Gbit /s。 速率往往是指 额定速率 或 标称速率, 非实际运行速率。         例:人的耳朵能听到的频率最低值为3k,最高值为300k,频宽为300k-3k=297k(k为千赫)         例:如现在的宽

    2024年02月10日
    浏览(9)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包