kafka hang 问题记录

这篇具有很好参考价值的文章主要介绍了kafka hang 问题记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考文档

https://cloud.tencent.com/developer/article/1821477

9092端口

端口9092通常与Apache Kafka关联。
Kafka是一个开源的分布式事件流平台,用于构建实时的数据管道和流应用。
它能够处理任意大小的数据,以容错的方式处理数据流。

在默认配置中,Kafka的代理(Broker)监听9092端口以接收来自生产者(Producers)、消费者(Consumers)以及其他Kafka代理的连接请求。
生产者将事件数据发送到Kafka,而消费者从Kafka读取这些数据。这些操作都通过9092端口完成。

注意
尽管9092是Kafka默认的端口,但它可以在Kafka的配置文件中进行修改。
这在多代理部署或网络策略需要其他端口时非常有用。

kafka-consumer-groups.sh

kafka-consumer-groups.sh 是 Apache Kafka 分发包中的一个 shell 脚本,用于列出所有消费者组
描述消费者组的详细信息,或者删除消费者组信息。

列出所有消费者组:
kafka-consumer-groups.sh --bootstrap-server localhost:9092 --list

描述特定消费者组的详细信息:
kafka-consumer-groups.sh --bootstrap-server localhost:9092 --group my-group --describe

删除特定消费者组的信息:
kafka-consumer-groups.sh --bootstrap-server localhost:9092 --group my-group --delete

注意:–bootstrap-server 参数指定了 Kafka 集群的一个或多个 broker 地址
如果Kafka集群布署在别的主机或者端口,那么需要修改localhost:9092参数,指向真正的Kafka集群地址

只要命令中的 --bootstrap-server 参数正确地指向了 Kafka 集群中的任意一个可用的 Broker 地址
kafka-consumer-groups.sh --bootstrap-server localhost:9092 --list 命令就能够列出该 Kafka 集群中的全部消费者组。

topic的leader为-1

如果一个topic的leader为-1,那通常意味着这个topic的所有副本都不可用。
Kafka中每个partition都有一个leader副本,所有的读写操作都会通过这个leader副本进行。
每个partition还可以有一个或多个follower副本,它们会尽可能地同步leader副本的数据,以提供高可用性和故障转移。

如果leader副本宕机或者其他原因不可用,那么Kafka会从follower副本中选举一个新的leader。
但是如果没有可用的follower副本(比如所有副本都宕机或者消失),
那么这个partition就没有可用的leader,leader的id就会显示为-1。

此时,这个partition就无法正常工作,任何试图读取或写入这个partition的操作都会失败。
需要尽快恢复副本,使partition重新有可用的leader。
可以检查Kafka集群的健康状况,并查看为什么所有的副本都不可用。
可能的原因包括磁盘故障、网络故障、Kafka broker配置问题等。

kafka-topics.sh --describe --bootstrap-server localhost:9092 --topic your_topic_name
在运行这个命令后,会输出一些列的信息
包括每个partition的ID,当前的leader,及副本和ISR(in-sync replica,同步副本)的列表

注意
Kafka集群的每个partition都有一个leader,所以一个topic可能有多个leader,分别负责不同的partition

HW采集程序,采集某个消费组下某个topic的情况

首先需要一个运行环境 (例如 Python) 并安装相应的库 (如 HW Python SDK)
然后需要连接到 Kafka 集群并订阅主题

from hwsdk import get_consumer
import time

# 定义消费组和相关主题
group_id = 'your_group_id'
topics = ['topic1', 'topic2']

# 创建消费者实例
consumer = get_consumer(group_id)

# 订阅多个主题
consumer.subscribe(topics)

# 采集数据
while True:
	# 在Python里面,消费者库会自动处理__consumer_offsets的读写
	# 只需要调用poll()或者consume()等方法就能读取到新的消息,并且库会自动更新偏移量
	# 如果想要手动控制偏移量,也可以使用commit()等方法
    msg = consumer.poll(1.0)

    if msg is None:
        continue
    if msg.error():
        print("Consumer error: {}".format(msg.error()))
        continue

    print('Received message: {}'.format(msg.value().decode('utf-8')))

    time.sleep(5)  # 每5秒采集一次数据

# 退出时关闭消费者连接
consumer.close()

hang住问题记录

前端时间debug问题时,消费侧hang住,积压严重,迁移了消费者还是会hang住
分区offset更新到最新后(直接丢弃业务数据用于止损),积压消除,但是后续又慢慢积压上来了

问题原因

消费侧的代码逻辑是个for循环,因为某些异常业务导致for循环5分钟以上仍未执行结束
单分区被hang住后,offset无法往前移动,导致该分区后续消息积压

解决办法

如果某个分区因为某个实例被hang住,重置某分区的offset到最新后,因为没有重启消费侧的服务
所以被hang住的消费实例还是会一直处理这个消息直到结束
处理完后提交offset时,Broker才会忽略该offset,因为offset已经重置到最新
因为处于配置封禁期,因此临时将for循环添加过滤和及时退出逻辑,才解决该问题

复线

创建一个topic,设置两个分区0和1
Broker配置滑动窗口限制为3,worker数量3,worker缓冲大小3
消费侧配置两个消费者,奇数key不阻塞,偶数key hang住10分钟(for循环20次,每次sleep 30秒)
单分区被hang住后,offset无法往前移动,导致该分区后续消息积压
发送消息,让单分区hang住,消息产生积压,当600秒执行完之后,后面的消息正常处理

__consumer_offsets

Kafka内部用于追踪消费者组对主题分区进行消费的偏移量的特殊topic。
每个消费者组对每个主题的每个分区都有一个偏移量,表示这个消费者组最后一次消费到这个分区的哪个位置。
这样在消费者重启或者其他故障恢复的时候,可以从这个位置开始接着读,不会丢失中间的消息。

__consumer_offsetstopic通常对用户是不可见的,因为它存储的是Kafka的内部数据。
对于一般的应用开发,不需要也不应该去直接操作这个topic。
但是对于理解Kafka的工作机制,以及进行一些底层的调整优化等工作,了解这个概念还是有帮助的。文章来源地址https://www.toymoban.com/news/detail-807642.html

到了这里,关于kafka hang 问题记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【阅读笔记】Linux 高性能服务器编程

    原文地址以及最新代码参考:https://github.com/EricPengShuai/Interview/tree/main/Linux Ch.5 Linux 网络编程基础 API 5.1 socket 地址 API 5.1.1 主机字节序和网络字节序 大端字节序(网络字节序):高位低地址 小端字节序(主机字节序):高位高地址 参考代码:5-1byteorder.cpp 一般网络编程中,发

    2024年02月06日
    浏览(51)
  • 《Linux高性能服务器编程》笔记01

    本文是读书笔记,如有侵权,请联系删除。 参考 Linux高性能服务器编程源码: https://github.com/raichen/LinuxServerCodes 豆瓣: Linux高性能服务器编程 □socket地址API。socket最开始的含义是一个IP地址和端口对(ip,port)。它唯一地 表示了使用TCP通信的一端。本书称其为socket地址。 □s

    2024年01月22日
    浏览(65)
  • 《Linux高性能服务器编程》笔记02

    参考 Linux高性能服务器编程源码: https://github.com/raichen/LinuxServerCodes 豆瓣: Linux高性能服务器编程 Linux提供了很多高级的I/O函数。它们并不像Linux基础I/O函数(比如open和read) 那么常用(编写内核模块时一般要实现这些I/O函数),但在特定的条件下却表现出优秀的性 能。本章将讨论

    2024年01月21日
    浏览(57)
  • Linux高性能服务器编程——学习笔记①

    第一章有一些概念讲的很好,值得好好关注一下!!! 1.1 主要的协议 1.1.1 数据链路层 ​ 数据链路层实现了网卡接口的网络驱动程序,以处理数据在物理媒介(以太网、令牌环)上的传输。 ​ 常用的协议有两种: ARP协议(Address Resolve Protocol,地址解析协议) RARP(Reverse

    2024年01月20日
    浏览(63)
  • 【网络编程】高性能并发服务器源码剖析

      hello !大家好呀! 欢迎大家来到我的网络编程系列之洪水网络攻击,在这篇文章中, 你将会学习到在网络编程中如何搭建一个高性能的并发服务器,并且我会给出源码进行剖析,以及手绘UML图来帮助大家来理解,希望能让大家更能了解网络编程技术!!! 希望这篇文章能

    2024年04月15日
    浏览(56)
  • Linux高性能服务器编程——ch10笔记

    信号是由用户、系统或者进程发送给目标进程的信息,以通知目标进程某个状态的改变或系统异常。 :::tips int kill(pid_t pid, int sig); ::: kill函数:一个进程给其他进程发送信号的API。 sig一般大于0,如果设为0则表示不发送信号,可以用来检测进程或进程组是否存在。由于进程P

    2024年02月06日
    浏览(43)
  • 使用CentOS搭建高性能静态HTTP服务器

    在互联网应用中,静态内容是广泛存在的,例如HTML页面、图片、视频等。为了提供高效、稳定和安全的静态内容服务,我们可以使用CentOS来搭建高性能的静态HTTP服务器。 1. 选择合适的软件 Nginx和Apache是两个流行的HTTP服务器软件。Nginx以其高效、轻量级和快速的性能而著称,

    2024年01月23日
    浏览(63)
  • C++高性能服务器网络框架设计与实现

    这篇文章将从两个方面来介绍,一个是服务器中的基础的网络通信部件;另外一个是,如何利用这些基础通信部件整合成一个完整的高效的服务器框架。注意:本文以下内容中的客户端是相对概念,指的是连接到当前讨论的服务程序的终端,所以这里的客户端既可能是我们传

    2024年02月04日
    浏览(54)
  • 如何配置一台高性能的IBM服务器

    在当今信息化时代,服务器作为企业数据存储、处理和传输的核心设备,其性能的优劣直接关系到企业的运营效率和安全性。而IBM作为全球领先的企业级服务器提供商,其产品广泛应用于各行各业。本文将为你详细介绍如何配置一台高性能的IBM服务器,帮助你打造稳定、高效

    2024年01月23日
    浏览(60)
  • 服务器显卡:驱动高性能计算和人工智能应用

    一、引言 随着高性能计算和人工智能应用的不断发展,服务器显卡的性能显得越来越重要。服务器显卡是服务器硬件配置中的一个关键组件,它不仅提供基本的图形渲染能力,还在高性能计算和人工智能应用中发挥着重要作用。本文将探讨服务器显卡的重要性和发展趋势,以

    2024年02月09日
    浏览(76)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包