【tcp】TCP CLOSE_WAIT问题分析与定位

这篇具有很好参考价值的文章主要介绍了【tcp】TCP CLOSE_WAIT问题分析与定位。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、问题背景

某日,运维突然在群里突然丢出告警信息:

对象类型:主机
检测规则:NET.TCP.CLOSE.WAIT
告警内容:CLOSE_WAIT状态的TCP连接数大于500
....

【tcp】TCP CLOSE_WAIT问题分析与定位,tcp/ip,网络协议,网络

image.png

上面告警信息已经说的很明白,CLOSE_WAIT状态的TCP连接数过多。
如果没有网络编程经验或对网络协议也不了解的人,看着这提示可能还是一脸懵逼不知所:

CLOSE_WAIT是什么鬼?
应用上很多连接第三方服务,到底是哪个服务有问题?
如何定位哪里的代码有问题?

二、问题分析

CLOSE_WAIT是什么?

【tcp】TCP CLOSE_WAIT问题分析与定位,tcp/ip,网络协议,网络

image.png

【tcp】TCP CLOSE_WAIT问题分析与定位,tcp/ip,网络协议,网络

image.png

CLOSE_WAIT是TCP的一个状态,它在ESTABLISHED(连接建立)基础上,收到对方的FIN且我方已回ACK,说白了就是对方已关闭我方尚未关闭。

如果有长时间和大量的TCP处于CLOSE_WAIT状态时,代码可能是问题的,原因是连接未正确关闭。

三、如何定位代码问题

如果系统代码简单,直接去看对应的代码有没可能导致连接未关闭即可。

如果系统代码量大且对接的第三方比较多,Linux平台可以通过netstat –nap | grep CLOSE_WAIT | grep ${pid} 看看哪个IP的连接出现了问题,再针对性的查找代码。

image.png

如果IP不够直观,可以通过IP反解析成域名,如:

image.png

IP地址反查域名在线工具
http://ip.yqie.com/iptodomain.aspx

当然如果本地环境可以复现最好不过了,可以在java.net.Socket或java.net.InetSocketAddress$InetSocketAddressHolder类的构造函数设置断点进行DEBUG

【tcp】TCP CLOSE_WAIT问题分析与定位,tcp/ip,网络协议,网络

image.png

如果是生产环境,可以使用arthas(https://alibaba.github.io/arthas/)的stack命令,再加入IP过滤参数:

stack java.net.InetSocketAddress$InetSocketAddressHolder <init>

然后静静地等等Socket连接的建立即可知道产生连接代码的位置:

【tcp】TCP CLOSE_WAIT问题分析与定位,tcp/ip,网络协议,网络

image.png

紧急的生产问题一般都会heap dump然后重启应用的,理论上可以通过MAT查找分析属性released状态为false的org.apache.http.impl.execchain.ConnectionHolder对象,再找到关联的incoming references对象CloseableHttpResponse(限于HttpClient)。

四、CLOSE_WAIT有什么影响?

如果代码有问题导致出现大量的CLOSE_WAIT会有什么影响呢,会影响业务吗?

Socket网络连接是一种资源,资源泄露肯定会有影响的。

首先对于系统的影响,每个Socket连接都需要一个随机端口号(作为Client),而系统理论上最大支持65535;
另外,在Linux中,网络连接是一个文件描述符,受限于系统ulimit –n参数,如果达到最大会导致“Too many open files”。

对于应用来说,应用一般是使用连接池,连接池是有最大数量限制的,如果没有及时释放导致连接泄露耗尽,线程就无法获取新的连接而影响业务。如果连接池的maxWait设置过大会造成线程阻塞时间过长,对于流量大的系统极容易造成大量请求阻塞甚至雪崩。

五、问题总结

  1. 任何与资源相关的必须要确保关闭。Java有Closeable接口,可以通过try ... 语法糖自动关闭释放。

  2. 了解基本的网络编程知识和相应的定位工具。

  3. 开发阶段加强代码审查,压力测试也是发现资源问题的必要手段,同时生产环境配备必要的基础监控能力。

六、参考

CLOSE_WAIT问题分析与定位
https://mp.weixin.qq.com/s/_YmYVxwMOzZjETYlnbToZw

我是如何确认线上CLOSE_WAIT产生的原因及如何解决的
https://www.cnblogs.com/dukuan/p/8178728.html#4334700

简单的 HTTP 调用,为什么时延这么大?
https://mp.weixin.qq.com/s/lvs-3VXfrScdOQVRkkLyRw



作者:Bogon
链接:https://www.jianshu.com/p/7f7c5d30721f
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。文章来源地址https://www.toymoban.com/news/detail-771978.html

到了这里,关于【tcp】TCP CLOSE_WAIT问题分析与定位的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【TCP/IP】多进程服务器的实现(进阶) - 僵尸进程及wait、waitpid函数

    目录 僵尸(Zombie)进程 僵尸进程的产生机制 僵尸进程的危害 僵尸进程的销毁 wait函数 waitpid函数          进程管理在网络编程中十分重要,如果未处理好,将会导致出现“僵尸进程”,进而影响服务器端对进程的管控。         第一次听到这个名词大家可能会有些陌生

    2024年02月09日
    浏览(44)
  • 网络程序设计:TCP/IP协议栈源代码分析

    从调用栈中可以看到inet_init被调用的过程 start_kernel函数位于 init/main.c中,是内核的入口位置, 它在系统引导过程中被调用。执行该函数后,内核初始化各种子系统,包括调度器、内存管理、文件系统等。在函数最后,会调用 rest_init 函数来继续剩余的初始化工作。 在rest_in

    2024年01月15日
    浏览(55)
  • 网络程序设计实验-TCP/IP协议栈源代码分析

    ​ inet_init代码如下: 调用inet_init的过程中,涉及到的函数如下: 1. start_kernel: start_kernel 是Linux内核的启动函数,定义在 init/main.c 文件中。 在启动过程中,首先执行 start_kernel ,这个函数负责进行内核的初始化工作。 2. rest_init: 在 start_kernel 中,会调用 rest_init 函数,该函数的

    2024年02月03日
    浏览(71)
  • 网络程序设计实验:TCP/IP协议栈源代码分析

    深入理解TCP/IP协议栈的源代码结构和功能,探究其与上层套接口和下层数据链路层的关联方式。 分析TCP的三次握手过程,理解其状态转换和数据传输机制。 掌握send和recv操作在TCP/IP协议栈中的执行路径,探究其与上层应用程序的交互方式。 了解路由表、ARP缓存以及IP到MAC地址

    2024年02月03日
    浏览(64)
  • 网络程序设计专题实验:TCP/IP协议栈源代码分析

    inet_init是如何被调用的?从start_kernel到inet_init调用路径 跟踪分析TCP/IP协议栈如何将自己与上层套接口与下层数据链路层关联起来的? TCP的三次握手源代码跟踪分析,跟踪找出设置和发送SYN/ACK的位置,以及状态转换的位置 send在TCP/IP协议栈中的执行路径 recv在TCP/IP协议栈中的执

    2024年02月02日
    浏览(69)
  • 高并发场景下大量TCP链接处于time_wait状态原因及优化思路分析

    对一台服务器进行压测(模拟高并发场景),会发现大量 TIME_WAIT 状态的 TCP连接,连接关闭后,这些TIME_WAIT会被系统回收 一般来讲,在高并发的场景中,出现TIME_WAIT连接是正常现象,一旦四次握手连接关闭之后,这些连接也就随之被系统回收了 但是在实际高并发场景中,很

    2024年02月04日
    浏览(74)
  • 数据链路层(MAC)、网络层(IP)、传输层(TCP/UDP)抓包分析

    OSI模型(OSI model),开放式系统互联通信参考模型(英语:Open System Interconnection Reference Model,缩写为 OSI)。 抓包通常抓取数据链路层、网络层、传输层的包。 OSI主要关注5层,数据从上至下逐级封装,加入每层的头部信息,在物理层转换为比特率发送; 接收端使用逆向顺序

    2024年02月16日
    浏览(53)
  • 网络协议分析(一)(C语言实现---ethernet、arp、ip、icmp、udp、tcp)

    以太网协议是一种局域网通信协议,它通过物理层和数据链路层的协同工作,使用媒体访问控制地址和载波监听/冲突检测协议来实现计算机之间的稳定数据传输。在数据传输过程中,以太网会将数据封装成数据帧,并根据目标MAC地址来识别需要接收数据的计算机。通过这种方

    2024年02月06日
    浏览(52)
  • 【计算机网络】深入理解TCP协议二(连接管理机制、WAIT_TIME、滑动窗口、流量控制、拥塞控制)

    正常情况下,TCP需要经过三次握手建立连接+四次挥手断开链接,下面看一个图: 服务器的状态变化: [CLOSED - LISTEN] 服务器端调用listen后进入LISTEN状态, 等待客户端连接; [LISTEN - SYN_RCVD] 一旦监听到连接请求(同步报文段), 就将该连接放入内核等待队列中, 并向客户端发送SYN确认

    2024年02月07日
    浏览(60)
  • 网络适配器没有启用tcp/ip服务,WLAN 适配器的驱动程序可能出现问题

    笔记本抽风。登得上wifi和热点,但网不能用,“无法访问Internet”   win10自带的网络诊断提示: “找到问题 WLAN 适配器的驱动程序可能出现问题 Windows 无法自动将 IP 协议堆栈绑定到网络适配器。 未修复 无线网络 适配器出现问题 已失败 ” 试了试火绒的断网修复,提示网络

    2024年02月11日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包