皮振伟的专栏

105 篇文章
113.3K 次阅读
69 人订阅

全部文章

皮振伟

[linux][bcc]使用virtiostat查看virtio设备的IOPS和吞吐

前言 在linux平台上,我们经常需要使用各种各样的工具查看设备的使用情况。例如使用iostat查看块设备的IO情况,使用iftop查看网卡设备的流量情况。 但...

22820
皮振伟

[linux][redis]redis支持disable-thp了

前言 前文《[linux][redis]bgsave引起的latency突刺问题分析》中记录了在执行bgsave的时候,因为fork子进程之后,会出现page ...

33920
皮振伟

[linux][tcp]tcprtt在server端监控多个client延迟

前言 前文《[linux][tcp]使用tcprtt排查网络延迟问题》介绍了tcprtt的基本用法,可以监控特定的连接的TCP的rtt情况。 后来,Brande...

16530
皮振伟

[linux][tcp]使用tcprtt排查网络延迟问题

前言 网络后端业务,经常会遇到延迟抖动的问题。那么问题来了,如何排除出来是网络的问题呢,还是业务的逻辑问题呢,或者是其他的调度问题呢? 分析 SRTT 在TC...

34800
皮振伟

[Linux][kernel]sched delay和steal time的原理分析以及atop的监控改进

前言 在虚拟化场景下,经常会用到steal time来判断虚拟机的vCPU执行是否被抢占,进而来衡量虚拟机的性能指标。同时,在延迟敏感型的业务上(例如redis...

50130
皮振伟

[Linux][mm]watermark_scale_factor的调整以及遇到的问题

在较高的Linux版本上,支持了watermark_scale_factor参数(完整路径/proc/sys/vm/watermark_scale_factor...

86010
皮振伟

[linux][redis]redis对cpu亲和性的支持

前言 redis在最近的版本中,开始了对多线程的支持。加上之前对多进程的支持,模型的复杂度也比过去复杂了不少。 redis本身又是一个对性能、延迟非常敏感的业务...

45920
皮振伟

[linux][system]atop的介绍和使用

前言 Linux上运行大量的后端的业务程序,往往希望得到更快的响应速度,更小的延迟,甚至有严格的PCT 99的指标。而操作系统的复杂度很高,多个因子之间可能会互...

49620
皮振伟

[linux][irq]中断性能监控工具irqtop和lsirq

目前的主流服务器都拥有较多的CPU,2 NUMA node情况下,打开HyperThread,CPU数量通常都在40、64、96、128、192、256左右。

59010
皮振伟

[linux][qemu]PVPanic的缺陷和完善

前文《[linux][qemu]PVPanic的实现原理以及应用》中,介绍了pvpanic的原理和基本的使用方法,KVM虚拟化场景下,使用pvpanic驱动可以...

51220
皮振伟

[linux][perf]list过长导致CPU消耗过高的问题分析

某机器上网络出现时断时续的问题,网络的同事发现ovs进程的CPU消耗很高,硬件offload的规则下发卡住的问题。即通过netlink向内核发送消息卡住。

43431
皮振伟

[linux][tcp]CLOSE_WAIT的一个TCP问题

某机器上残留了很多CLOSE_WAIT状态的TCP连接,使用netstat却看不到是哪一个进程在使用。

64930
皮振伟

基于KVM虚拟化的混合部署

KVM forum 2019上,作者和同事的演讲主题是《How KVM-based Hybrid Deployment Powers Bytedance’s B...

73210
皮振伟

[Linux][mm]TLB shootdown和读取smaps对性能的影响 ​

作者遇到了业务的一个性能抖动问题,在这里介绍一下它的原因和解决办法。 分析 1,page fault 在Linux上,进程分配到的内存是虚拟内存,经过内核...

75020
皮振伟

[Linux][seccomp]seccomp引起的SIGSYS问题 ​

前言 作者习惯使用Libvrit,多数情况下,会直接使用libvirt进行虚拟机操作。 如果要用qemu启动的情况,一般会比较习惯ps -ef | grep q...

61010
皮振伟

[x86][QEMU]虚拟化场景下的CPU拓扑

前言 目前的主流服务器一般是二路,即有2个NUMA node。每个NUMA上有一个CPU。比较主流的CPU一般是10Core/12Core,打开了Hyper-t...

78941
皮振伟

[linux][atop]atop的改进和在统计io上遇到的问题

前言 互联网公司一般都会运行着几千到几万的服务器。一般的监控会采用类似ganglia/falcon类似的工具,在本地启动一个agent,把数据统计上报到集中式的...

62720
皮振伟

[linux][kvm]模拟大量虚拟机遇到的问题

前言: 网络的同事希望模拟大量的虚拟机(万台数量级),又受到物理资源的限制,只能使用几台物理机。 遇到了各种奇奇怪怪的问题。 分析:

55430
皮振伟

[linux][block]readahead导致的md-raid1读速度慢问题

前言 为了提高虚拟机的网盘的高科用,同时挂载了两块,在Guest内部使用RAID1,如果后端一块发生故障,可以保证在10s内failover,恢复业务运行。当前...

53030
皮振伟

[gcc][glibc]va_start嵌套导致的问题

使用tgt-1.0.75创建好target之后,在initiator端执行login操作大约卡3s~5s左右。同时观察tgt,CPU消耗到达100%。

41520

扫码关注云+社区

领取腾讯云代金券