如何测量Ceph OSD内存占用

前言

这个工具我第一次看到是在填坑群里面看到,是由研发-北京-蓝星同学分享的,看到比较有趣,就写一篇相关的记录下用法

火焰图里面也可以定位内存方面的问题,那个是通过一段时间的统计,以一个汇总的方式来查看内存在哪个地方可能出了问题 本篇是另外一个工具,这个工具的好处是有很清晰的图表操作,以及基于时间线的统计,下面来看下这个工具怎么使用的

本篇对具体的内存函数的调用占用不会做更具体的分析,这里是提供一个工具的使用方法供感兴趣的研发同学来使用

环境准备

目前大多数的ceph运行在centos7系列上面,笔者的环境也是在centos7上面,所以以这个举例,其他平台同样可以

需要用到的工具

  • valgrind
  • massif-visualizer

安装valgrind

yum install valgrind

massif-visualizer是数据可视化的工具,由于并没有centos的发行版本,但是有fedora的版本,从网上看到资料说这个可以直接安装忽略掉需要的依赖即可,我自己跑了下,确实可行

下载massif-visualizer

wget ftp://ftp.pbone.net/mirror/download.fedora.redhat.com/pub/fedora/linux/releases/23/Everything/x86_64/os/Packages/m/massif-visualizer-0.4.0-6.fc23.x86_64.rpm

安装massif-visualizer

rpm -ivh massif-visualizer-0.4.0-6.fc23.x86_64.rpm  --nodeps

不要漏了后面的nodeps

抓取ceph osd运行时内存数据

停掉需要监控的osd(例如我的是osd.4)

[root@lab8106 ~]# systemctl stop ceph-osd@4

开始运行监控

[root@lab8106 ~]# valgrind --tool=massif /usr/bin/ceph-osd -f --cluster ceph --id 4 --setuser ceph --setgroup ceph==21522== Massif, a heap profiler
==21522== Copyright (C) 2003-2015, and GNU GPL'd, by Nicholas Nethercote
==21522== Using Valgrind-3.11.0 and LibVEX; rerun with -h for copyright info
==21522== Command: /usr/bin/ceph-osd -f --cluster ceph --id 4 --setuser ceph --setgroup ceph
==21522== 
==21522== 
starting osd.4 at :/0 osd_data /var/lib/ceph/osd/ceph-4 /var/lib/ceph/osd/ceph-4/journal
2017-08-10 16:36:42.395682 a14d680 -1 osd.4 522 log_to_monitors {default=true}

监控已经开始了,在top下可以看到有这个进程运行,占用cpu还是比较高的,可能是要抓取很多数据的原因

等待一段时间后,就可以把之前运行的命令ctrl+C掉

在当前目录下面就会生成一个【massif.out.进程号】的文件

[root@lab8106 ~]# ll massif.out.21522 -rw------- 1 root root 142682 Aug 10 16:39 massif.out.21522

查看截取的数据

命令行下的查看

[root@lab8106 ~]# ms_print massif.out.21522 |less

这个方式是文本方式的查看,也比较方便,自带的文本分析工具,效果如下:

图形界面的查看

首先在windows上面运行好xmanager-Passive,这个走的x11转发的(也可以用另外一个工具MobaXterm)

运行好了后,直接在xshell命令行运行

[root@lab8106 ~]# massif-visualizer massif.out.21522 massif-visualizer(22494)/kdeui (kdelibs): Attempt to use QAction "toggleDataTree" with KXMLGUIFactory! 
massif-visualizer(22494)/kdeui (kdelibs): Attempt to use QAction "toggleAllocators" with KXMLGUIFactory! 
description: "(none)" command: "/usr/bin/ceph-osd -f --cluster ceph --id 4" time unit: "i" snapshots: 56 peak: snapshot # 52 after "2.3138e+09i" peak cost: "16.2 MiB"  heap "749.0 KiB"  heap extra "0 B"  stacks

然后在windows上面就会弹出下面的

就可以交互式的查看快照点的内存占用了,然后根据这个就可以进行内存分析了,剩下的工作就留给研发去做了

相关链接

linux – 如何测量应用程序或进程的实际内存使用情况?

总结

只有分析落地到数据层面,这样的分析才是比较精准的

原文发布于微信公众号 - 磨磨谈(momotan1987)

原文发表时间:2017-08-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT米粉

Redis常见的应用场景解析

缓存是Redis最常见的应用场景,之所有这么使用,主要是因为Redis读写性能优异。而且逐渐有取代memcached,成为首选服务端缓存的组件。而且,Redis...

7318
来自专栏cloudskyme

众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 ? 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。...

3465
来自专栏鸿的学习笔记

简单聊聊分布式系统的一致性问题

记得有人说过,分布式系统的所有问题归根结底都是一致性问题。前面文章提到的数据复制,分区以及事务面临的问题都是如何保证数据一致。而分布式系统不同于单机,它不...

741
来自专栏Golang语言社区

Golang 语言开发 APP 服务器流程(个人经验)

废话不多说,直接来干货。 APP 目前开发的有些团队还在既有安卓又有IOS再开发,其实这样的团队配置已经过时。现在跨平台打包支持的越来越多,所以团队上可以回头...

5593
来自专栏星流全栈

dva - React + Redux, but like elm

1324
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|接口测试用例设计

活动介绍 TMQ第四十期在线沙龙分享活动圆满结束啦! 本次分享的主题:接口测试用例设计 共有470位测试小伙伴报名参加活动。 想知道活动分享了啥吗? 请往下看吧...

4628
来自专栏java工会

15个顶级Java多线程面试题及答案,快来看看吧

1595
来自专栏互联网技术栈

Zookeeper 使用场景

821
来自专栏hotqin888的专栏

HydroCMS水利设计管理系统,基于beego框架

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

1142
来自专栏子勰随笔

SDK设计心得之架构和资源

4824

扫码关注云+社区