《ios爆内存问题解决方案-OOMDetector组件》

组件介绍

在iOS App中,有两种闪退是让人深恶痛绝的,一种是异常退出,另外一种是爆内存杀进程。前者已经有完备的工具协助定位分析,而后者却一直是业界的难以治愈的毒瘤。你是否遇到过线上App因为爆内存导致频繁闪退却又无法获得堆栈信息进行有效定位的困境?你是否费劲心思拿到JestsamEvent文件(系统爆内存日志)却依然束手无策?本文将介绍一款IOS爆内存分析利器,它可以以极其微小的代价让藏匿极深的爆内存罪魁祸首无处遁形——OOMDetector

OOMDetector是手Q自研的IOS内存监控组件,腾讯内部目前已有多个App接入了OOMDetector,它主要有以下两个功能:

1.爆内存堆栈统计:负责记录进程内存分配堆栈和内存块大小,在爆内存时Dump堆栈数据到磁盘

2.内存泄漏检测:检测内存泄漏,目前支持Malloc内存块和OC对象的泄漏检测

OOMDetector可以快速帮助开发者发现和定位App爆内存问题和内存泄漏,组件目前已经通过公司审核在Github成功开源,源码地址:https://github.com/Tencent/OOMDetector。

背景

目前业内已有一些比较成熟的IOS内存分析工具,下面逐个介绍这些工具的功能以及它们在使用上的不足。

Allocation

作为IOS开发,我们都很熟悉苹果官方提供的Allocation内存分析工具,在开发调试阶段,可以用Allocation详细分析App各模块内存占用。Allocation对App的内存监控比较全面,能监控到所有堆内存以及部分VM内存分配。虽然Allocation的功能比较强大,但是它也有比较明显的使用局限性,主要表现为以下两点:

1.无法独立在App运行,只能在调试阶段连接Mac使用

2.性能较差,大型App开启后容易引发卡死

这两点限制决定了Allocation只适合于在开发阶段辅助分析代码中存在的内存问题,而无法直接对线上用户的问题进行监控和定位。

FBAllocationTracker

FBAllocationTracker是Facebook开源的内存分析工具,它的原理是用 Method Swizzling替换原本的alloc方法,这样可以在App运行时记录所有OC实例的分配信息,帮助App在运行阶段发现一些OC对象的异常增长问题。相比AllocationFBAllocationTracker对App性能影响较低,可以在App中独立运行。但是这个工具也有比较明显的缺陷:

1.监控范围不够全面,只能监控OC对象,不能监控C++对象和malloc内存块以及VM内存

2.没有内存对象分配的堆栈信息,对于开发者来说很难只通过对象的类型和数量定位到内存增长的原因

综上所述,FBAllocationTracker虽然能独立在App中运行,但是监控的内存范围太小,同时记录的对象信息也过于简单,对于分析内存问题帮助十分有限。

内存问题一直是手Q的关注重点,为了保证线上大盘用户的内存质量,我们希望有一款工具能够帮助监控和定位线上用户的内存问题。基于这样的背景,我们团队自研了OOMDetector组件,该组件与现有工具的特点对比表1所示。OOMDetector通过Hook系统底层的内存分配方法,能够记录到进程所有内存分配的堆栈信息,同时组件能够在对性能流畅度影响不大的情况下能够保证在App中独立运行,可以方便用于分析和监控线上用户的内存问题(爆内存或者内存泄漏问题)。

组件原理

爆内存堆栈统计

爆内存堆栈监控原理

爆内存堆栈监控的实现原理如图1所示,通过Hook IOS系统底层内存分配的相关方法(包括malloc_zone相关的堆内存分配以及vm_allocate对应的VM内存分配方法),跟踪并记录进程中每个对象内存的分配信息,包括分配堆栈、累计分配次数、累计分配内存等,这些信息也会被缓存到进程内存中。在内存触顶的时候,组件会定时Dump这些堆栈信息到本地磁盘,这样如果程序爆内存了,就可以将爆内存前Dump的堆栈数据上报到后台服务器进行分析。

图1:爆内存监控原理

性能挑战

App的内存分配方法的调用频率非常高,在大型App中可能高达10W/次每秒。要Hook这类方法对组件的性能来说是极大的挑战,因为如果组件本身耗时的话就很容易导致App卡顿甚至卡死。在OOMDetector中,我们对Hook方法代码的执行效率进行了严格控制,也采取了一些策略对Hook方法中耗时较多的堆栈回溯和锁等待进行了优化:

1.优化堆栈回溯方法

对于堆栈回溯,系统提供了backtrace_symbols方法可以直接获取堆栈信息,但是这个方法特别耗时。所以我们根据堆栈的回溯原理实现了更高效的堆栈回溯方法,优化后的方法在运行时只会获取堆栈函数的地址信息,在回写磁盘的时候再根据动态库的地址范围拼装成如图2所示堆栈格式(类似Crash堆栈),后台服务器利用atos命令和符号表文件就可以还原出对应的堆栈内容。通过这种方式可以把耗时较高的符号还原工作放到服务器端,客户端只需要执行耗时较少的堆栈函数地址回溯操作,优化后的堆栈回溯方法耗时低于1us。

堆栈格式

2.优化锁等待耗时

对于多线程的内存分配,为了保证线程安全,堆栈数据的插入操作必须要上锁。对于这种高频调用的方法,锁的性能是我们最关心的指标。IOS开发中NSLock@synchronized是比较常用的,那么这两种锁的性能如何呢?

我们通过测试代码对IOS中常用的锁进行了测试,总结了图2所示的各种锁的性能比较图,根据图3的测试结果,NSLock@synchronized的性能要低于pthread_mutex,性能最好的是自旋锁OSSpinLock

自旋锁的原理是,如果自旋锁已经被别的执行单元保持,调用者就一直循环等待锁的释放。相比互斥锁而言,自旋锁不会引起调用者休眠,节省了线程休眠的状态切换,所以有更高的效率,但代价是增加了cpu的使用率。对于我们的场景,因为需要上锁部分的代码执行耗时较少,采用OSSpinLock的自旋锁并不会显著增加cpu的使用率,所以我们优先考虑锁的效率采用了OSSpinLock的方案(IOS10上使用os_unfair_lock)。

各种锁的性能比较

堆栈聚类和压缩

之前提到,我们的Hook方法会缓存每个内存分配的堆栈数据。假设App的内存块个数为25W,堆栈平均深度20行,每个堆栈地址采用8字节的整型数据存储,那么25W个堆栈数据将占用40M的内存空间。显然这样的内存增长对于任何App都是不可承受的,所以我们需要对组件的内存占用进行优化。

我们分析爆内存问题时候,只需要分析那些内存占用较大的堆栈,基本不用关心那些内存占用较小的堆栈。所以我们的优化思路也很明确:只保留内存占用较大的堆栈。要完成这个工作就必须对内存中所有堆栈先进行聚类合并,统计出每个堆栈累计的内存值。

具体的优化策略如图4所示,对于每个记录到的分配堆栈,首先通过md5算法将堆栈数据压缩为16字节的md5,通过md5值进行聚类,缓存中只保留16字节的md5数据,只有当某个堆栈的累计内存超过一定阀值时,才会保留原始堆栈信息,这样因为超过阀值的堆栈数量有限,堆栈原始信息占用的空间几乎就可以忽略不计了。

堆栈聚类和压缩原理

采用两种方式可以将堆栈降低到优化前的1/40左右,优化后的组件内存基本不会对App的内存造成太大影响。

数据Dump方案

前面提到,在内存触顶后要将内存中的堆栈数据定时Dump到磁盘中,常规的方案是IO接口直接把数据写入到磁盘。因为数据Dump的频率较高,频繁的IO操作会导致程序卡顿。因为数据Dump的操作是非常高频的,所以我们采用了效率更高的mmap方式。

mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间。实现这样的直接映射关系后,写文件的过程进程不会有额外的文件的数据拷贝操作,避免了内核空间和用户空间的频繁切换,如图5所示。根据我们的代码实测,向mmap映射空间写数据的性能与直接写内存一致,效率远高于IO操作。

内存映射原理

那么mmap的回写时机是怎样的?根据官方文档描述,主要有如下时机:

1.系统内存不足时

2.进程crash时

3.主动调用 msync时

mmap 在内存不足时会主动进行回写操作,这样的机制也保证我们的监控组件能在程序爆内存前将缓存中的数据回写到磁盘,从这一点看采用mmap的方式相比常规IO操作也有更强可靠性。

内存泄漏检测

除了爆内存堆栈监控,OOMDetector还集成了内存泄漏检测功能,能够检测Malloc内存块和OC对象的“无主内存泄漏”。所谓“无主内存泄漏”是指内存块在进程内已经没有引用却无法正常释放的内存块。

按照之前介绍的方案,OOMDetector可以记录到每一个对象的分配堆栈信息,要从这些对象中找出 “泄漏对象”,我们需要知道在程序可访问的进程内存空间中,是否有 “指针变量”指向对应的内存块,那些在整个进程内存空间都没有指针指向的内存块,就是我们要找的泄漏内存块。如图2所示,在IOS系统中,可能包含指针变量的内存区域有堆内存、栈内存、全局数据区和寄存器,OOMDetector通过对这些区域遍历扫描即可找到所有可能的“指针变量”,整个扫描流程结束后都没有“指针变量”指向的内存块即是泄漏内存块。

为了避免内存访问冲突,扫描过程需要挂起所有线程,整个过程会卡住程序1-2秒。因为扫描过程较为耗时,这个功能目前主要用于App的测试阶段,与自动化测试结合可快速高效的发现泄漏问题。

内存泄漏检测原理

展望

开源只是开始,我们后续仍会不断对OOMDetector组件进行改进,也欢迎大家对组件多提意见。如果你的IOS应用也在受到内存问题困扰或者你也对IOS内存监控技术感兴趣,那么来了解下我们的组件吧!


如果您觉得我们的内容还不错,就请转发到朋友圈,和小伙伴一起分享吧~

原文发布于微信公众号 - 腾讯Bugly(weixinBugly)

原文发表时间:2018-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏H2Cloud

ffrpc-c++进程间(服务器端、客户端)通信框架

FFRPC github 地址 https://github.com/fanchy/FFRPC FFRPC 已经陆陆续续开发了1年,6月6日这天终于完成了我比较...

42440
来自专栏Linyb极客之路

Mysql max_allowed_packet自动重置为1024的情况

前几天在群里有个朋友问到max_allowed_packet被自动重置的问题,于是打算写个文章来描述下,因为遇到这个问题的人不少,但是提到的解决方案几乎没有。

51220
来自专栏SDNLAB

P4语言编程快速开始

经过前两篇的P4理论介绍,相信大家已经对P4有个基本的了解了,本片文章为大家带来P4语言编程实战。 1、系统环境安装 P4项目的官方文档上都是以Ubuntu为例...

45060
来自专栏分布式系统进阶

记一次Kafka集群的故障恢复Kafka源码分析-汇总

35530
来自专栏Java后端技术栈

分布式锁简单入门以及三种实现方式介绍

很多小伙伴在学习Java的时候,总是感觉Java多线程在实际的业务中很少使用,以至于不会花太多的时间去学习,技术债不断累积!等到了一定程度的时候对于与Java多...

11910
来自专栏idba

如何做一个靠谱的发号器

在使用数据库时,表的主键经常会使用数据库的自增(auto_increment)来产生。这当然很方便也很高效。但是使用自增也会带来一些麻烦。如果从一个数据库以外的...

14860
来自专栏从零开始学自动化测试

Locust性能测试1-环境准备与基本使用

提到性能测试,大部分小伙伴想到的就是LR和jmeter这种工具,小编一直不太喜欢写这种工具类的东西,我的原则是能用代码解决的问题,尽量不去用工具。 python...

17610
来自专栏Danny的专栏

VMware10下安装CentOS 6.5+基本网络配置

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/...

14630
来自专栏玄魂工作室

Hacker基础之Linux篇:进阶Linux命令二

发音类似<砰>,对黑客而言,这就是成功实施黑客攻击的声音,砰的一声,被<黑>的电脑或手机就被你操纵了

15520
来自专栏玉树芝兰

如何把 Markdown 文件批量转换为 pdf?

有个朋友提出,希望把目录中的许多 markdown 文件,批量转换为对应名称的 pdf 格式文件。我于是编写了一个 Python 脚本,并且分享给你。如果你有类...

15150

扫码关注云+社区

领取腾讯云代金券