专栏首页idbaTCP重传问题排查思路与实践

TCP重传问题排查思路与实践

图 under the strange horizon by joeyjazz

一 关于TCP重传

  1. TCP有重传是正常的机制,为了保障数据传输可靠性。只是局域网环境,网络质量有保障,因为网络问题出现重传应该极低;互联网或城域网环境,线路复杂(可以想象下城市地下管网,错综复杂的电线杆等),网络质量不好保障,重传出现概率较高。
  2. TCP有重传,也不一定是网络层面的问题。也可能是接收端不存在,接收端receive buffer满了,应用程序有异常链接未正常关闭等等等。

二 TCP/IP相关

排查网络问题,要掌握TCP/IP原理,真相都在一个一个的数据包里。以下是和TCP重传比较关键的几个参数。

2.1 建立TCP链接时的参数

net.ipv4.tcp_syn_retries#syn包重传多少次后放弃,重传间隔是2的n次方(1s,2s,4s..)
net.ipv4.tcp_synack_retries#syn ack包重传多少次后放弃
net.ipv4.tcp_max_syn_backlog#syn包队列

其他参考:

/proc/sys/net/ipv4/* Variables: https://www.kernel.org/doc/Documentation/networking/ip-sysctl.txt

2.2 TCP重传类型

超时重传

在请求包发出去的时候,开启一个计时器,当计时器达到时间之后,没有收到ACK,则就进行重发请求的操作,一直重发直到达到重发上限次数或者收到ACK。

快速重传

当接收方收到的数据包是不正常的序列号,那么接收方会重复把应该收到的那一条ACK重复发送,这个时候,如果发送方收到连续3条的同一个序列号的ACK,那么就会启动快速重传机制,把这个ACK对应的发送包重新发送一次。具体可以参考:

三 常见问题与措施

3.1单台机器或单个应用机器tcp重传,可能是链接的服务器或端口无法访问

排查思路

# 1、抓1000或者更多个tcp包
# 出现2次以上seq一样的包就是发生了重传
# syn包重传间隔是指数增加
# 已经建立了链接的tcp重传间隔,参考RTO
# 收到比较多ack重传,一般说明数据包出现乱序,seq较大的先到达了目的端,发送端收到3次sack会触发立即快速重传缺失的tcp分片。快速重传不太影响rt,但是发送窗口立即减半,会对吞吐带宽有一定影响
# 云环境虚拟机,还要考虑分析宿主机的问题
 
sudo ss -anti |grep -B 1 retrans #重传统计
 
if=bond0
sudo tcpdump -w /tmp/tcp.pcap -i $if -c 1000 -nn tcp 2>/dev/null
sudo tcpdump -nn -r /tmp/tcp.pcap | awk '{print $3,$5,$8,$9}' | sort | uniq -c | sort -rn  |sed 's/^ \{1,\}//g'|egrep  -v "^1 |Request"

2、联通性检查
ping $ip
nc -nvz $ip $port
 
3、接收端应用程序问题排查;来源和目的抓包,wireshark分析具体是什么包丢失导致了重传

3.2 多台机器或多个应用同时tcp重传,可能是网络抖动

排查思路

1、查看网络区域埋点,查看网络设备报警,看是否有区域网络抖动
2、区域网络没问题的话。可以用常见问题:1 的方法缩小排查范围

3.3 带宽跑满

排查思路

1、查看主机监控,检查是否带宽跑满
 
2、检查重传联路上相关的网络设备是否有带宽跑满

3.4 不常见问题

1 网络设备端口或光模块异常等导致包checksum失败

2 网络路由收敛抖动

3 主机网络驱动有bug,网络设备有bug等

四 如何监控

使用tsar -tcp -C 可以监控到tcp的retran属性也即是重传次数。

tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs -n 2

感兴趣的朋友可以直接执行以下监控脚本获取tcp相关的状态监控数据,适用于open-falcon。

#!/usr/bin/env bash
HOSTNAME=`hostname`
timestamp=`date +%s`
tagapp="app=tsar.collect"
data_item=""
tsarcollectstring=`/opt/tsar/bin/tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs  -n 2 | tail -n +2|sed 's/ /|/'`
for i in $tsarcollectstring
do
   getkey=`echo $i|awk -F "|" '{print $1}'`
   getvalue=`echo $i|awk -F "|" '{print $2}'`
   tags="$tagapp"
   metric="tsar.collect.$getkey"
   metric_item="{\"endpoint\":\"${HOSTNAME}\",\"tags\":\"${tags}\",                 \"timestamp\":${timestamp},\"metric\":\"$metric\",                 \"value\":${getvalue},\"counterType\":\"GAUGE\",                 \"step\":60}"
   if [ "${data_item}x" = "x" ];then
      data_item="$metric_item"
   else
      data_item="${data_item},${metric_item}"
   fi

done
echo "[$data_item]"

五 案例实践

1 在遇到丢包重传的机器上抓包并使用wireshark 分析该包,注意因为重传不是时刻都有的,所以抓包命令是要持续执行以便捕捉到重传的包。使用wireshark打开tcpdump的结果,在搜索框里入手tcp.analysis.retransmission 得到如下结果:

图1 表明服务端发生了三次重传动作。

2 由于包比较多,我们可以使用wireshark的追踪流功能获取重传相关的tcp流

图二 追踪流-->TCP流 可以得到重传相关的数据包

图三 可以看出客户端和服务端的请求与应答。

3 解析重传

特别需要说明的是

NO 67,68 client端由于某些原因没有收到正确的包数据,向server端发送dup ack,参考基础知识提到的快速重传

NO.68和NO.69之间的时间差200ms(关注time那一列,其他都是相差小于1ms),server等待超时,于是重传。

NO 73-74是client端发送了一个fin包并主动关闭连接。

这个案例仅仅发生一次,没有复现,通过抓包解析出来分析没有得到明确的结论。

六 小结

本文总结自己工作过程中遇到的TCP重传问题的解决过程 ,侧重于大致的解决问题的思路与具体的实践,理论知识偏少,大家有兴趣的可以阅读推荐文章以便深入了解tcp的工作机制。

推荐文章

tcp 重传系列文章

https://www.cnblogs.com/lshs/p/6038516.html https://www.cnblogs.com/lshs/p/6038527.html https://www.cnblogs.com/lshs/p/6038536.html

网络性能排查之TCP重传与重复ACK https://www.kancloud.cn/digest/wireshark/62473

一站式学习wireshark https://www.kancloud.cn/digest/wireshark

TCP重传 http://www.vants.org/?post=36 本文有图文介绍。

本文分享自微信公众号 - yangyidba(yangyidba)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一款基于go语言的agent

    一 介绍 在构建数据库自动化运维系统的时候,数据库服务器上必须要有一个agent来执行web服务器端发起的命令,我们研究了好几种技术Celery,Redis ...

    用户1278550
  • 从库Seconds_Behind_Master延迟总结

    到这里本系列已经接近尾声了,是时候对常见引起主从延迟的情形进行一个总结了。我想如果我一开始就把这些情形拿出来也许大家对具体的原因不是那么清楚,但是经过本系列的学...

    用户1278550
  • show status和set gtid_mode 导致线程死锁案例

    我们数据库组今年上半年的计划之一是将所有数据库实例打开GTID特性。在线上进行灰度开启GITD过程中遇到数据库hang。具体表现是执行如下命令时:

    用户1278550
  • 速读原著-TCP/IP(超时与重传的简单例子)

    首先观察T C P所使用的重传机制,我们将建立一个连接,发送一些分组来证明一切正常,然后拔掉电缆,发送更多的数据,再观察 T C P的行为。

    cwl_java
  • 速读原著-TCP/IP(ICMP的差错)

    让我们来看一下 T C P是怎样处理一个给定的连接返回的 I C M P的差错。T C P能够遇到的最常见的I C M P差错就是源站抑制、主机不可达和网络不可...

    cwl_java
  • MonoDroid相关资源

    2月版的Visual Studio杂志上MonoDroid文章,写的是让开发人员可以使用C#语言和Mono虚拟机为Android移动操作系统编写应用程序的Mon...

    张善友
  • Android >= 4.4 适配沉浸状态栏颜色

    Google的Material Design的发布让Android具备了更多的个性化元素,例如,“沉浸式”状态栏。问题来了,那么在低版本Android上可以用吗...

    GitOPEN
  • 简单几行代码,生成手绘风格配图,再也不用担心配图丑了!

    咳咳!先说说背景哈,自从两个月之前看到了葛饰北斋的神奈川冲浪里,也就是下面这幅神仙图之后,便深深沉迷于这种浮世绘风格不能自拔。

    云爬虫技术研究笔记
  • [TCP/IP] TCP的传输连接管理

    客户端 ==> SYN是1同步 ,ACK确认标志是0,seq序号是x ==> 服务器 客户端 <== SYN是1同步 ,ACK确认标志是1,seq序号是y,ac...

    陶士涵
  • FSWD_2_JavaScript

    location data type data structure Events function structure debug JS既在client sid...

    用户1147754

扫码关注云+社区

领取腾讯云代金券