在 Linux 系统下,丢包是一个较为常见的问题。由于丢包导致的网络问题可能会给用户带来不好的体验,因此解决 Linux 网络丢包问题是必不可少的。本文将介绍如何在 Linux 系统下进行网络丢包排查。
最近工作中遇到某个服务器应用程序 UDP 丢包,在排查过程中查阅了很多资料,我在排查过程中基本都是通过使用 tcpdump 在出现问题的各个环节上进行抓包、分析在那个环节出现问题、针对性去排查解决问题,对症下药,最后终究能够解决问题。但是这种情况大多是因为服务本身的问题,如果是环境问题、操作系统、甚至硬件的问题,可能从服务本身出发不能解决问题,但是这篇文章另辟蹊径,从外部环境分析可能丢包的原因,看完之后,很受用,部分章节对原文有所修改,下面分享出来供更多人参考。
1. 确认网络丢包问题是否存在。可以使用ping命令测试网络连接并查看是否出现丢包情况。例如:ping www.baidu.com -c 100,其中“-c 100”表示ping 100次测试。
对于云上的用户来说,业务日志里面报超时问题处理起来往往比价棘手,因为1) 问题点可能在云基础设施层,也有可能在业务软件层,需要排查的范围非常广;2) 这类问题往往是不可复现问题,抓到现场比较难。在本文里就分析下如何来分辨和排查这类问题的根本原因。
本文将引入一个思路:“在 Kubernetes 集群发生网络异常时如何排查”。文章将引入 Kubernetes 集群中网络排查的思路,包含网络异常模型,常用工具,并且提出一些案例以供学习。
EasyGBS平台具备UDP和TCP两种传输模式,默认的播放协议是udp的传输模式,udp的优势是传输速度更快,更具有实时性。但是udp的劣势也很明显,就是相对于tcp来说很不可靠,所以就经常出现丢包的现象,导致视频卡住过后,过几秒新的数据包来了又可以播放了。
在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络情况而开发的软件,通过阅读这篇论文来学习下他们是怎么做的。
今天线上业务出现了大量语音合成问题,本以为是服务出问题,但是经过排查发现服务一切正常就是合成的特别慢,在TTS语音合成服务那边也没有大量的任务堆积,这边也一直再发送需要合成的数据过去,这种情况只能说明在传输需要合成的语句的时候出现了问题,这时候第一个排查的就是网络问题,可能是网络大量丢包造成的数据传输问题,于是开始使用ping命令查看,发现确实有丢包,但是通过ping又没有办法发现是哪个地方丢包,这个时候聪明的你肯定想到我们用traceroute命令来检测数据包传输到哪个地方不传了,但是我发现这个并不能说明什么,因为丢包不是完全丢,而是丢一部分,这个时候想有没有一个命令是ping和traceroute的合体,于是google了一下,发现mtr刚好满足我的需求,于是使用记录并分享.
在客户业务应用中,采用TCP协议的占据了绝大多数,这方面也有丰富的资料可以参考;但是在UDP协议方面,由于应用较少,相关的资料也很少.TCP的性能调优需要调整一系列参数,而决定UDP通信性能的因素于此截然不同.本文将通过实验给读者做验证.
本期分享一个比较常见的⽹络问题--丢包。例如我们去ping⼀个⽹站,如果能ping通,且⽹站返回信息全⾯,则说明与⽹站服务器的通信是畅通的,如果ping不通,或者⽹站返回的信息不全等,则很可能是数据被丢包了,类似情况想必⼤家都不陌⽣。针对⽹络丢包,本⽂提供⼀些常见的丢包故障定位⽅法,希望能够帮助⼤家对⽹络丢包有更多的认识,遇到丢包莫要慌,且跟着⼀起来涨姿(知)势(识)···
最近工作中遇到某个服务器应用程序 UDP 丢包,在排查过程中查阅了很多资料,总结出来这篇文章,供更多人参考。
运维过程中,最复杂的问题,莫过于网络的问题,而网络问题最烦的就是无法复现,这篇介绍一个强大的网络模拟工具Netem
之前记录过处理因为 LVS 网卡流量负载过高导致软中断发生丢包的问题,RPS 和 RFS 网卡多队列性能调优实践[1],对一般人来说压力不大的情况下其实碰见的概率并不高。这次想分享的话题是比较常见服务器网卡丢包现象排查思路,如果你是想了解点对点的丢包解决思路涉及面可能就比较广,不妨先参考之前的文章如何使用 MTR 诊断网络问题[2],对于 Linux 常用的网卡丢包分析工具自然是 ethtool。
这是我参与「第三届青训营 -后端场」笔记创作活动的的第7篇笔记。计算机网络真的是太庞大了
导语:本文分享了笔者现网遇到的一个文件下载慢的问题。最开始尝试过很多办法,包括域名解析,网络链路分析,AB环境测试,网络抓包等,但依然找不到原因。然后利用网络命令和报文得到的蛛丝马迹,结合内核网络协议栈的实现代码,找到了一个内核隐藏很久但在最近版本解决了的BUG。如果你也想了解如何分析和解决诡异的网络问题,如果你也想温习一下课堂上曾经学习过的慢启动、拥塞避免、快速重传、AIMD等老掉牙的知识,如果你也渴望学习课本上完全没介绍过的TCP的一系列优化比如混合慢启动、尾包探测甚至BBR等,那么本文或许可以给
最近看到一些网友经常会问,购买了云服务器、云MySQL或类似的云产品后无法远程登录应该如何排查?这里笔者以排查云服务器问题为例,整理了一下问题排查思路分为三个过程分别为客户端确认,腾讯云控制台确认和登录服务器确认来介绍(注:按照问题可能的原因进行排序从高到低)同时推荐一些好用的排查问题工具供大家参考。另外如果你有好的思路别忘记给我留言,我会持续更新本文档。
前段时间飞哥参加了一期 OSChina 官方举办的「高手问答」栏目。在这个栏目里,我和 OSChina 的网友们以《深入理解 Linux 网络》为主题,对大家日常所关心的一些问题展开了一些技术探讨。
【排查步骤】 1、健康检查探测机制是clb的vip向后端cvm业务进行探测,所以先在cvm上抓包看是否有收到探测包
一.网络故障的排查与定位 能ping通吗?端口通吗?不通的可能原因: a、防火墙屏蔽了? b、服务器故障?服务down了? c、自身电脑问题?(尝试ping多方) d、中间节点问题?(尝试多个
我们在购买腾讯云服务器云服务器CVM_云主机_云计算服务器_弹性云服务器- 腾讯云 (tencent.com)的时候,对于网络方面,一就是考虑带宽,二就是考虑服务器所在的地理位置与大部分用户访问云服务器所在的位置;那么当我们的用户或者是自己在访问云服务器的时候,进行ping发现有丢包,那就可以从上面2大点去入手排查,先将最容易的、能快速规避解决的因素都进行排除解决。
本文提供视频讲解,详细见地址:https://www.bilibili.com/video/BV1ya4y1J77C
这两年,eBPF 一直很火,是各大会议上的必讲主题。那么,作为一项革命性的技术,eBPF 的“魔力”到底在哪里?为什么无论是故障诊断、网络优化,还是安全控制、性能监控,eBPF 都能发挥这么大的作用?
如果你的Linux服务器突然负载暴增,告警短信快发爆你的手机,如何在最短时间内找出Linux性能问题所在?
Debug 网络质量的时候,我们一般会关注两个因素:延迟和吞吐量(带宽)。延迟比较好验证,Ping 一下或者 mtr[1] 一下就能看出来。这篇文章分享一个 debug 吞吐量的办法。
作者杨玉玺,2011年至今一直从事底层网络研发,目前就职腾讯云 TKE 团队,专注 K8s 底层网络。先后就职于阿里云、金山云从事 VPC 虚拟化网络研发,对高性能网络优化,复杂网络问题排查有非常丰富的经验。 导语 K8s容器网络涉及诸多内核子系统,IPVS,Iptable,3层路由,2层转发,TCP/IP协议栈,这些复杂的内核子系统在特定场景下可能会遇到设计者最初也想不到的问题。 本文分享了iptable防火墙状态异常导致丢包的排查记录,这个排查过程非常曲折,最后使用了在现在的作者看来非常落伍的工具:sy
当发现设备访问某一网段时有丢包,可以先在多台设备上去 ping 目的网段的周围的多个网段(类似于诊断六那样),用于确定是何种流量丢包还是所有流量都会丢包;
本文章来自我的微信个人技术公众号---网络技术修炼,公众号中总结普及网络基础知识,包括基础原理、网络方案、开发经验和问题定位案例等,欢迎关注。
图片下载走的 k8s ingress,这个 ingress 路径对应后端 service 是一个代理静态图片文件的 nginx deployment,这个 deployment 只有一个副本,静态文件存储在 nfs 上,nginx 通过挂载 nfs 来读取静态文件来提供图片下载服务,所以调用链是:client --> k8s ingress --> nginx --> nfs。
网络诞生前夜,IP协议、TCP协议都不存在,而你是网络缔造者,你会选择做怎样设计?
手上管理的其中一个Hadoop集群,承接着大量的数据流量,一直以来运行平稳,最近突然发现集群有时会出现MR作业运行缓慢,put文件至HDFS偶发速度慢的问题,像大数据集群这种问题,有点疑难杂症的味道,本次也是经历了10多个小时的定位才真正把问题解决。
大海是我多年老友,六七年前我们因OpenStack而相识,然后一起北上创业。创业结束后,他加入了某大厂,成为一名运维骨干。他做事负责,为人靠谱;勤于学习,从OpenStack运维,到K8S和云原生应用运维,不断更新自己的技术栈;喜欢写代码,笃信“能用代码做的事情就不人工做”,经常说“嗨,你看看我新写的这个工具...”;还喜欢分享,写过不少技术文章,我们也常夜聊技术。技术一直在变,我们对技术的热情不变,我们的友情也不变。
随着移动互联网普及,移动设备和高清摄像头在日常生活和工作中大量使用,人们产生海量的视频数据,如何高效实时采集、传输、显示视频数据,成为当下各方参与者摩拳擦掌的竞技舞台,TRTC是将腾讯多年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,TRTC音视频解决方案是其中的佼佼者。
在大多数Linux发行版中,mtr可能已经预装。如果没有,你可以使用包管理器安装它,例如:
网络问题往往复杂且难以预测,其中“ping不通”是常见的网络故障之一。当遇到这种问题时,优雅的排查和解决策略至关重要。
最近一段时间家里的网络不是很稳定,网络时断时续,有的时候连得上有的时候连不上。试过网络上的办法,拔掉电源等10秒钟再插上;按住路由器的reset键重置路由器,但是都不管用。
笔者有一个需要搭建弱网环境来复现某个网络问题的需求,因此开始在网络中寻找能够快速搭建弱网环境的方式。
TCP三次握手是建立一个可靠的连接的基础。在这个过程中,有两个重要的队列:半连接队列(SYN queue)和全连接队列(ACCEPT queue)。
无论是软件开发人员,还是测试人员,亦或是运维人员,都需要掌握一些常用的基础网络知识,以用于日常网络问题的排查。这些基本的网络知识与概念,不仅日常工作会用到,跳槽时的笔试面试也会用到。本文结合多年来的工作实践,来详细讲述一下作为IT从业人员要掌握的一些基本网络知识。
当你接手一个老项目,可能发现程序在服务器上运行性能低得可怕,与此同时现网流量还在逐渐增长。也许运用最新框架、微服务容器化、异步协程等方法来次彻底的重构,能够挽狂澜于既倒。可惜时不我待,运维已经在要求加机器了,而坏消息是,原有框架还不支持水平扩展,没法通过堆机器解决。有没有办法在不进行大改的情况下,度过难关呢?
收到研发反馈,TCP重传严重。主机报文重传是TCP最基本的错误恢复功能,它的目的是防止报文丢失
在处理客户CDN问题的过程中,很大一部分问题主要集中在部分客户端访问异常。如果要排查客户端访问异常,就不得不先讲解一下客户访问CDN域名经过的路径。
对任何规模的业务来说,网络监控工具都是一个重要的功能。网络监控的目标可能千差万别。比如,监控活动的目标可以是保证长期的网络服务、安全保护、对性能进行排查、网络使用统计等。由于它的目标不同,网络监控器使用很多不同的方式来完成任务。比如对包层面的嗅探,对数据流层面的统计数据,向网络中注入探测的流量,分析服务器日志等。
在云函数的日常运营中,经常有用户提出要求协助排查网络问题。一般的手段就是使用 tcpdump 抓包,但是部署抓包往往是在问题发生之后,而且抓包后复现的时机也不确定,往往费时费力。本文讲述使用 BPF 记录 TCP 的重传和丢包记录,作为定位网络问题的一种辅助手段。
EasyCVR平台支持多类型设备、多协议方式接入,包括市场主流标准协议国标GB/T28181、RTMP、RTSP/Onvif协议等,以及厂家私有协议,如海康SDK、大华SDK、海康Ehome等。平台可将接入的流媒体进行处理及分发,分发的视频格式包括RTSP、RTMP、FLV、HLS、WebRTC等。
在华为路由器上,当OSPF(开放最短路径优先)邻居建立不成功时,可能存在多种原因。本文将详细介绍一些常见故障排查步骤,以解决这个问题。我们将逐一检查邻居两端的接口状态、物理连接、协议状态、网络类型、路由器ID、区域ID、IP地址和掩码等方面的配置。
注:本文主要参考InfoQ文章用十条命令在一分钟内检查Linux服务器性能,在此基础上对涉及的Linux命令进行整理而成。
首先,我们需要确保邻居两端的接口物理和协议状态都处于正常工作状态,并且稳定无波动。使用以下命令检查接口状态:
EasyNVR是一款稳定的流媒体服务平台,它可实现设备接入、实时直播、录像、检索与回放、存储、视频分发等视频能力服务,支持RTSP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式的视频流,在很多场景中均有落地应用,如智慧工厂、智慧工地、智慧园区、智慧港口等。
领取专属 10元无门槛券
手把手带您无忧上云