首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

TCP close_wait 引发的血案

大家好,我是「云舒编程」,今天我们来聊聊最近遇到的线上出现大量close_wait导致服务不可用的问题。...文章首发于微信公众号:云舒编程 一、问题      服务A调用服务B,在服务A的机器上出现了大量的close_wait状态的TCP连接。...二、closed_wait      根据TCP四次挥手,理论上close_wait是一个非常短暂的状态,对应到下图:当服务端接收到客户端的FIN并且回复ACK后服务端就会进入close_wait。...如果服务端出现了大量的close_wait那就证明没有进行正常的TCP关闭,也就是服务端最终没有调用close或者shutdown,导致最后一个FIN没有发出去。...三、分析 出现大量closed_wait的条件: 大量的短TCP链接 未正确关闭TCP(close或者shutdown) 前天压测满足了条件一,那就只剩下条件二了。

19010

Linux TCP客户端出现CLOSE_WAIT后进入死循环

在前文中讲述了Linux服务端TCP的某个链路变成CLOSE_WAIT状态,然后由于客户端已经关闭了(发送了RST标志的报文),那么服务端如果继续向这个链路中写入数据的话就会收到SIGPIPE信号而终止...59 0 127.0.0.1:56710 127.0.0.1:8006 CLOSE_WAIT 2804/linux_epoll_si tcp...59 0 127.0.0.1:56710 127.0.0.1:8006 CLOSE_WAIT 2804/linux_epoll_si tcp...原因和《Linux TCP通信出现CLOSE_WAIT后导致服务端进程挂掉》是一样的,就是Linux内核产生软中断,发送SIGPIPE信号给客户端进程,导致其默认终止了。...7 附录: 以上就是Linux TCP通信中客户端出现CLOSE_WAIT后进入死循环的一个实例以及分析过程,下面是客户端程序linux_epoll_simple_sndmsg_netstat.c,工作流程很简单

13910
您找到你想要的搜索结果了吗?
是的
没有找到

Linux TCP通信出现CLOSE_WAIT后导致服务端进程挂掉

在前文中讲述了Linux服务端TCP通信出现CLOSE_WAIT状态的原因,这篇文章主要通过一个实例演示它个一个“恶劣”影响:直接使服务端进程Down掉。...再打开一个Linux终端界面,然后输入命令telnet 192.168.1.177 8000作为客户端建立与服务端的TCP连接。这时执行脚本....在等待2分钟后,在Windows中使用Wireshark抓包发现由于客户端发送了RST+ACK报文给Linux服务端,所以二者的TCP链路已经被复位了: 这时在Linux中再次使用netstat_nap.sh...这时Linux服务端进程会执行第90行处的close()函数,也即执行正常四次挥手关闭TCP连接。...这样Linux服务端进程还是能够正常执行监听任务: 8 其它 网上有人把这种客户端或者服务端异常关闭的连接叫做TCP半关闭(Half-Close),例如网线拔掉、突然断电等,此时对端连接仍认为双方连接处于打开中

8310

TCP的TIME_WAIT和CLOSE_WAIT状态

TIME_WAIT状态,会是什么原因呢 首先出现TIME_WAIT状态是正常的,如果是在服务器出现,那么一般可能是有以下两个原因, 原因 大量的短连接 服务器主动关闭 http请求头没有设置keep_alive,而是close...服务器超时会主动断开 所以针对以上情况,有以下解决方法: 解决方法 在业务层尽量避免服务端主动关闭 http请求头设置keep_alive 服务端开启TIME_WAIT复用选项,设置net.ipv4.tcp_reuse...=1和net.ipv4.tcp_timestamps=1 大量的TIME_WAIT状态会导致新连接创建失败,因为端口只有65535个,端口不够用了会报错 CLOSE_WAIT 原因 CLOSE_WAIT...是服务端收到FIN报文后,发出最后一个FIN报文前的状态,所以出现CLOSE_WAIT有很大可能是服务端没有及时发送出FIN报文,也就是没有主动close或者shutdown,这种一般是代码写得有问题

55730

linux源码看socket的close

linux源码看socket的close 笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码,是一件Exciting的事情。...上篇博客讲了socket的阻塞和非阻塞,这篇就开始谈一谈socket的close(以tcp为例且基于linux-2.6.24内核版本) TCP关闭状态转移图: 众所周知,TCPclose过程是四次挥手...出现大量close_wait的情况 linux中出现大量close_wait的情况一般是应用在检测到对端fin时没有及时close当前连接。有一种可能如下图所示: ?...总结 linux内核源代码博大精深,阅读其代码很费周折。之前读>的时候由于有先辈引导和梳理,所以看书中所使用的BSD源码并不觉得十分费劲。...直到现在自己带着问题独立看linux源码的时候,尽管有之前的基础,仍旧被其中的各种细节所迷惑。希望笔者这篇文章能帮助到阅读linux网络协议栈代码的人。

5.2K80

TCP关闭连接(为什么会能 Time_wait,Close_wait ) ?

作者:胡文斌 Tcp 关闭连接问题及注意 最近一段时间一直在学习阅读mina和nio的源码,也发现了一些问题无法解决,然后重读了一下tcp协议,收获颇多。...如下图所示: 为什么调用sokcet的close时只通过一次握手就终结连接了? 要分析这个原因那就得从关闭连接程的四次握手,有时也会是三次握手,说起。...也就是大约1-4分钟,然后由操作系统自动回收并将TCP连接设为CLOSED初始状态。...TCP为什么要这么要让这种TIME_WAIT状态存活这么久呢?其原因有两个(参考stevens的unix网络编程卷1 第38页): 可靠地实现TCP全双工连接的终止。...设置为这个值的意思是当主动关闭方设置了setSoLinger(true,0)时,并调用close后,立该发送一个RST标志给对端,该TCP连接将立刻夭折,无论是否有排队数据未发送或未被确认。

13.5K21

关于linux进程间的close-on-exec机制

分析和重现问题 第一时间怀疑是不是流量太大、tcp连接过多导致文件描述符耗光了? 待我们仔细分析流量已经用netstat查看具体的连接数,离我们设置的上限还差很远。...在exec()调用后,close-on-exec标志为0的情况,此文件不被关闭;非零则在exec()后自动关闭。默认close-on-exec状态为0,需要通过FD_CLOEXEC设置。.../** porting code from libdaemon-0.14/libdaemon/dfork.c:daemon_close_allv */static int daemon_close_allv...Linux系统的open函数,其中flags参数可以传入O_CLOEXEC标记,即可自动设置上FD_CLOEXEC标记,但Linux内核版本2.6.23才开始支持此标记。...参考:《Linux/Unix系统编程手册》 扩展问题: 就是父子进程中的端口占用情况。

2.8K30

Linux网络编程TCP

TCP/IP协议 TCP/IP 协议栈是一系列网络协议(protocol)的总和,是构成网络通信的核心骨架,它定义了电子设备如何连入因特网,以及数据如何在它们之间进行传输。...OSI 7层模型和TCP/IP四层网络模型对应关系 计算机网路基础的知识不过多讲解,主要是让大家明白接下来的Linux网络编程数据流属于那一层,具体如下图 TCP/IP协议数据流示意图 我们接下来讲解的...Linux网络编程Tcp协议是属于传输层的协议 Linux Socket 网络编程 TCP协议 TCP是面向连接的可靠的传输层协议。...TCP编程 Linux中的网络编程是通过socket接口来进行的。socket是一种特殊的I/O接口,它也是一种文件描述符。常用于不同机器上的进程之间的通信,当然也可以实现本地机器上的进程之间通信。...使用TCP协议的流程图 根据流程图逐一讲解API接口.

5.4K30

TCP 文件传输:理解半关闭(Half-Close)策略及其实现

引言 TCP(传输控制协议)是计算机网络中的一种主要协议,它在数据传输中起着至关重要的作用。...在大规模文件传输过程中,了解和掌握 TCP 连接的管理策略,特别是了解半关闭(Half-Close)策略,不仅能帮助我们提高应用程序的性能,还能避免出现一些常见的网络问题。...TCP 连接概述 TCP 是一个面向连接的协议,它为网络上的两个应用程序提供了一个可靠的字节流。在传输过程中,TCP 会保证数据包按序到达,并且丢弃重复的数据包。...TCP 的连接分为三个阶段:建立连接、数据传输和连接终止。 半关闭(Half-Close)策略及其优势 在常规 TCP 连接的生命周期中,通常由其中一方主动关闭连接。...Go 语言实现 Go 语言提供了一套强大的网络编程库,可以轻松处理 TCP 连接。当创建 TCP 服务器时,你可以通过调用 conn.CloseWrite() 方法来实现半关闭策略。

49220

Linux TCP RST情况

其中复位标志RST的作用就是“复位相应的TCP连接”。 TCP连接和释放时还有许多细节,比如半连接状态、半关闭状态等。详情请参考这方面的巨著《TCP/IP详解》和《UNIX网络编程》。...前面说到出现“Connection reset”的原因是服务器关闭了Connection[调用了Socket.close()方法]。...原因在于Socket.close()方法的语义和TCP的“FIN”标志语义不一样:发送TCP的“FIN”标志表示我不再发送数据了,而Socket.close()表示我不在发送也不接受数据了。...问题就出在“我不接受数据” 上,如果此时客户端还往服务器发送数据,服务器内核接收到数据,但是发现此时Socket已经close了,则会返回“RST”标志给客户端。...,表现为超时,而不会rst[/yiji] close Socket 时recv buffer 不为空 例如,客户端发了两个请求,服务器只从buffer 读取第一个请求处理完就关闭连接,tcp层认为数据没有正确提交到应用

5.7K10

TCP time_wait close_wait问题(可能是全网最清楚的例子)

连接很多没释放,果真发现是很多CLOSE_WAIT的状态 简单认知 短链接,一次链接就会占用一个端口,一个端口就是一个文件描述符; 文件描述符 又称 句柄,linux系统最大的句柄数是65535,可以通过...客户端经过2个最长报文段寿命后,客户端CLOSE;服务器收到确认后,立刻进入CLOSE状态。 ? 状态流转图 ? 实际例子 建立连接 linux上起了一个redis服务 ?...TCP参数设置 如何快速回收TIME_WAIT和FIN_WAIT /etc/sysctl.conf 包含以下配置项 net.ipv4.tcp_timestamps = 1 net.ipv4.tcp_tw_recycle...= 1 net.ipv4.tcp_tw_reuse = 1 net.ipv4.tcp_fin_timeout = 30 root权限 执行/sbin/sysctl -p使之生效 经验之谈 个人经验,...状态 出现大量TIME_WAIT的情况,一般是服务端没有及时回收端口,linux内核参数需要调整优化 参考资料 https://www.mobibrw.com/2019/20477

3.2K10

TCP连接的TIME_WAIT和CLOSE_WAIT 状态解说-运维笔记

= 120 net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60 net.netfilter.nf_conntrack_tcp_timeout_time_wait...; FIN-WAIT-2: 从远程TCP等待连接中断请求; CLOSE-WAIT: 等待从本地用户发来的连接中断请求; CLOSING: 等待远程TCP对连接中断的确认; LAST-ACK...: 等待原来的发向远程TCP的连接中断请求的确认; TIME-WAIT: 等待足够的时间以确保远程TCP接收到连接中断请求的确认; CLOSE: 没有任何连接状态; 下面简单解释下什么是...==============================简单解释下TCP状态转移================================ 简单来说 一端忘记close,将造成另一端大量的close_wait...出现大量CLOSE_WAIT的原因很简单,就是某一方在网络连接断开后,没有检测到这个错误,没有执行closesocket,导致了这个状态的实现,这在TCP/IP协议的状态变迁图上可以清楚看到。

2.9K10
领券