Linux性能分析工具与图形化方法

作者:赵坤|腾讯魔王工作室后台开发工程师

在项目开发中,经常会遇到程序启动时间过长、CPU使用率过高等问题,这个时候需要依靠性能分析工具来定位性能的消耗点。本文介绍三个常用的工具的入门级使用及图形化方法,供大家参考。

本文介绍perf、gprof和valgrind三个性能分析工具,及其分析结果图形化的方法,旨在让大家更快的上手使用工具。出于篇幅的限制,本文不会对每种工具的使用参数及结果分析做详细的介绍,只做入门级的使用说明,更多详细的说明大家请google一下。

每个工具的介绍会分成简介、使用说明、图形化方法三个部分。

每种工具的结果都会基于下面这段代码:

#include <unistd.h>
using namespace std;
#define NUM 500000
void init(int* int_array){
	for(int i=0;i<NUM;i++){
		int_array[i]=i;
	}
}

void accu(int* int_array,long& sum ){
	for(int i=0;i<NUM;i++){
		sum+=int_array[i];
		usleep(3);
	}	
}

int main(){
	int int_array[NUM];
	init(int_array);
	long sum=0;
	accu(int_array,sum);
}

这段代码在V615机器上执行了31s,最大CPU使用率为8.3%(top结果)

一、Perf

1.1 简介

Perf是内置于Linux内核源码树中的性能剖析(profiling)工具。其基于事件采样原理,以性能事件为基础,常用于性能瓶颈的查找与热点代码的定位。

1.2 使用

perf的使用可以分为两种方式:

  • 直接使用perf启动服务
  • 挂接到已启动的进程

第一种方式不需要root权限,第二种方式需要root权限

基于入门级使用这一前提,直接介绍一下使用方式:

perf record -e cpu-clock -g  ./run
或者
perf record -e cpu-clock -g  -p 4522

 使用ctrl+c中断perf进程,或者在程序执行结束后,会产生perf.data的文件,使用

perf report

 会产生结果分析,如图

1.3 图形化方法

perf的结果可以生成火焰图。生成火焰图需要借助Flame Graph

Flame Graph项目位于GitHub: https://github.com/brendangregg/FlameGraph

clone代码或者直接下载压缩包到服务器上。以压缩包为例,是一个命名为:FlameGraph-master.zip的文件,假设其解压后的目录为:/data

基于1.2产生的perf.data,后续步骤如下:

1、使用perf script工具对perf.data进行解析
perf script -i perf.data &> perf.unfold

2、将perf.unfold中的符号进行折叠:
/data/stackcollapse-perf.pl perf.unfold &> perf.folded

3、最后生成svg图:
/data/flamegraph.pl perf.folded > perf.svg

 生成的火焰图如下:

关于火焰图的含义及分析网上有很多文章,这里不再赘述

二、Gprof

2.1 简介

gprof用于监控程序中每个方法的执行时间和被调用次数,方便找出程序中最耗时的函数。在程序正常退出后,会生成gmon.out文件,解析这个文件,可以生成一个可视化的报告

2.2 使用方法

使用gprof,需要在编译时,加入-pg选项

另外只有在程序正常退出后才会生成gmon.out,kill进程的方法是没法生成gmon.out的。对于那些线程会一直run的服务,需要修改代码,让程序在某个时间点停止。

重新编译后,正常启动程序即可;然后在程序运行结束后,会生成gmon.out文件

使用如下命令,生成报名文件(其中run是二进制的名字):

gprof -b run gmon.out >>report.txt

 report.txt打开如下图所示:

2.3 图形化方法

gprof的结果文件需要借助gprof2dot.py和graphviz来展示

使用gprof2dot.py生成dot文件

python gprof2dot.py  report.txt  >report.dot 

需要说明的是,这里要求服务器已经安装了python,并且要求gprof2dot.py与安装的python版本匹配。这两者是否匹配是一个需要运气、并且解决起来很无聊的事情,我的服务器上安装的python是2.6.6,第一次从网上下载的gprof2dot-2017.9.19与python版本就不匹配,执行会出错。目前使用的版本与2.6.6是兼容的,如果需要可以与我联系。

dot的打开需要graphviz工具,我是在windows下安装的graphviz,这个工具下载很简单。下载后使用gvedit.ext打开前一个步骤产生的report.dot文件即可

这个图显的有些萌萌哒,这是因为我们的程序写的比较简单,对于一般的业务而言,这个图会比较复杂。

三、Valgrind

3.1 简介

valgrind不是linux的原生工具,需要自行安装。valgrind自身包含了多个工具:

  • Memcheck:用于内存泄漏检查
  • Callgrind:用于性能分析,会收集程序运行时间和调用关系
  • 以及Cachegrind、Helgrind等

这里我们主要使用的Callgrind工具

3.2 使用方法

首先需要安装valgrind:http://valgrind.org/downloads/valgrind-3.12.0.tar.bz2

解压安装包后,顺次执行:./configue 、make、make install 就可以了

使用valgrind来分析性能,必须使用valgrind来启动程序:

valgrind --tool=callgrind --separate-threads=yes ./run

 --separate-threads是指是否按线程来分别统计,如果不加,会将所有线程的结果打到一个文件里;否则会按线程分别打印到不同文件里。

程序执行结束后,会生成形如:callgrind.out.4263-01的文件。这个文件直接分析起来有些困难,必须借助图形化的方式来浏览

3.3 图形化方法

valgrind的图形化需要借助kcachegrind.exe,大家可以自行下载,下载后在windows运行即可。这是打开callgrind.out.4263-01的结果:

四、工具比较

对于我们的需求:定位执行时间最长、占用CPU最多的函数 来说,这三个工具都可以达到目的。但这三者之间还是有一定的差距:

4.1 启动方式

perf虽然可以挂接进程但需要root权限。在普通权限下,perf和valgrind必须使用前缀启动的方式来启动程序,这在某种程度上会影响到程序的性能。我们在压测的过程中发现使用valgrind启动的时候,可以支持的在线总人数比直接运行程序要少很多。

4.2 程序侵入

perf和valgrind都不需要修改Makefile或者程序,但gprof需要重新编译文件,并且对于线程一直run的服务,还需要修改代码让其自然退出,这在一定程序上侵入了程序。但从对性能影响上来看,gprof可以最大限制的保留原程序的性能

4.3 结果展示

gprof的结果是一颗倒树,这颗树展示了从根到叶子的所有结点的时间消耗;perf的是一个金字塔,与gprof有异曲同工之妙;valgrind的结果是一条单路,指出的是某条调用路径上的时间消耗,并不是一个全局的展示。

4.4 监控原理

这是一个很专业的话题,目前对三者的监控原理还没有摸的太透,所以这里暂时空着。大家有兴趣可以先行研究。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码匠的流水账

聊聊replication的方式

replication和partition/sharding是分布式系统必备的两种能力。具体详见复制、分片和路由. 对于海量数据来说,replication一方...

831
来自专栏后端技术探索

IO - 同步,异步,阻塞,非阻塞

同步(synchronous) IO和异步(asynchronous) IO,阻塞(blocking) IO和非阻塞(non-blocking)IO分别是什么,...

661
来自专栏信安之路

Linux需要谨慎使用的几个命令

运维人员经常接触的Linux系统比较多,在Linux下的管理与操作通常都是通过命令行的方式对服务器进行操作,为了操作安全,有些命令的危害是特别大的,需要谨慎使用...

821
来自专栏计算机视觉与深度学习基础

解决win7系统不支持16位实模式汇编程序DOS运行的问题

这学期学习了汇编,在自己电脑上发现,win7的dos不支持16位实模式。 对编程来说,不能运行程序是致命的。 在经过网上搜集资料后,得到一种解决办法--使用do...

2178
来自专栏后端之路

redis迁移数据

背景 由于一些原因 现在需要将redis作为基础组建迁移出来redis无法获取连接Could not get a resource from the pool ...

5724
来自专栏听雨堂

异步Socket处理的一些测试值

客户端进行发送,服务器端将相同的数据回发到客户端。记录收发的次数。 1. 如果进行较大规模的UI处理(在TextBox中显示接收内容),将会大大降低响应时间,...

2145
来自专栏互联网研发闲思录

redis 存储session实现session共享

   nginx 作为代理    tomcat集群    redis存储共享session ?      nginx采用轮询方式将动态请求反向代理给tomcat...

2295
来自专栏tiane12

CentOS修改系统时间

1703
来自专栏我是攻城师

Nodejs笔记(一)

2947
来自专栏云计算教程系列

如何使用ntopng监控您的网络

ntop 是最好的网络监控工具之一。ntop是一个网络探测器,它以与top显示进程般类似的方式显示网络使用率。在交互模式中,它显示了用户终端上的网络状态。在网页...

2724

扫码关注云+社区