GC(Garbage Collector)就是垃圾收集器,这里仅就内存而言。以应用程序的root为基础,遍历应用程序在Heap上动态分配的所有对象,通过识别它们是否被引用来确定哪些对象是已经死亡的、哪些仍需要被使用。已经不再被应用程序的root或者别的对象所引用的对象就是已经死亡的对象,即所谓的垃圾,需要被回收。这就是GC工作的原理。
为了实现这个原理,GC有多种算法。比较常见的算法有Reference Counting,Mark Sweep,Copy Collection等等。目前主流的虚拟系统.NET CLR,Java VM都是采用的Mark Sweep算法。
垃圾收集器的本质,就是跟踪所有被引用到的对象,整理不再被引用的对象,回收相应的内存。
这听起来类似于一种叫做“引用计数(Reference Counting)”的算法,然而这种算法需要遍历所有对象,并维护它们的引用情况,所以效率较低些,并且在出现“环引用”时很容易造成内存泄露。
所以.Net中采用了一种叫做“标记与清除(Mark Sweep)”算法来完成上述任务。 “标记与清除”算法,顾名思义,这种算法有两个本领:
Compact算法除了会提高再次分配内存的速度,如果新分配的对象在堆中位置很紧凑的话,高速缓存的性能将会得到提高,因为一起分配的对象经常被一起使用(程序的局部性原理),所以为程序提供一段连续空白的内存空间是很重要的。
简单地把.NET的GC算法看作Mark-Sweep 算法。 阶段1: Mark-Sweep 标记清除阶段,先假设heap中所有对象都可以回收,然后找出不能回收的对象,给这些对象打上标记,最后heap中没有打标记的对象都是可以被回收的; 阶段2: Compact 压缩阶段,对象回收之后heap内存空间变得不连续,在heap中移动这些对象,使他们重新从heap基地址开始连续排列,类似于磁盘空间的碎片整理。
Mark-Sweep 算法.png
Reachable objects:指根据对象引用关系,从roots出发可以到达的对象。例如当前执行函数的局部变量对象A是一个root object,他的成员变量引用了对象B,则B是一个reachable object。从roots出发可以创建reachable objects graph,剩余对象即为unreachable,可以被回收 。
.NET将heap分成3个代龄区域: Gen 0、Gen 1、Gen 2;heap分配的对象是连续的,关联度较强有利于提高CPU cache的命中率。
Generational 分代算法.png
Heap分为3个代龄区域,相应的GC有3种方式: # Gen 0 collections, # Gen 1 collections, #Gen 2 collections。
如果Gen 0 heap内存达到阀值,则触发0代GC,0代GC后Gen 0中幸存的对象进入Gen1。如果Gen 1的内存达到阀值,则进行1代GC,1代GC将Gen 0 heap和Gen 1 heap一起进行回收,幸存的对象进入Gen2。2代GC将Gen 0 heap、Gen 1 heap和Gen 2 heap一起回收。如果GC跑过了,内存空间依然不够用,那么就抛出了OutOfMemoryException异常。
Gen 0和Gen 1比较小,这两个代龄加起来总是保持在16M左右;Gen2的大小由应用程序确定,可能达到几G,因此0代和1代GC的成本非常低,2代GC称为full GC,通常成本很高。
粗略的计算0代和1代GC应当能在几毫秒到几十毫秒之间完成,Gen 2 heap比较大时,full GC可能需要花费几秒时间。大致上来讲.NET应用运行期间,2代、1代和0代GC的频率应当大致为1:10:100。
既然有了垃圾收集器,为什么还要Dispose方法和析构函数? 因为CLR的缘故,GC只能释放托管资源,不能释放非托管资源(数据库链接、文件流等)。所以对于非托管资源一般我们会选择为类实现IDispose接口,写一个Dispose方法。让调用者手动调用这个类的Dispose方法(或者用using语句块来自动调用Dispose方法),Dispose执行时,析构函数和垃圾收集器都还没有开始处理这个对象的释放工作。
如果我们不想为一个类实现Dispose方法,而是想让它自动的释放非托管资源,那么就要用到析构函数了。析构函数是由GC调用的。你无法预测析构函数何时会被调用,所以尽量不要在这里操作可能被回收的托管资源,析构函数只用来释放非托管资源。GC释放包含析构函数的对象,需要垃圾处理器调用俩次,CLR会先让析构函数执行,再收集它占用的内存。 关于如何释放非托管资源详情,可以看一下另一篇文章《C#之托管与非托管资源》
GC什么时候执行垃圾收集是一个非常复杂的算法(策略),大概可以描述成这样:如果GC发现上一次收集了很多对象,释放了很大的内存,那么它就会尽快执行第二次回收,如果它频繁的回收,但释放的内存不多,那么它就会减慢回收的频率。所以,尽量不要调用GC.Collect()这样会破坏GC现有的执行策略。除非你对你的应用程序内存使用情况非常了解,你知道何时会产生大量的垃圾,那么你可以手动干预垃圾收集器的工作,例如我有一个大对象,我担心GC要过很久才会收集他。
作用:强制进行垃圾回收。
名称 | 说明 |
---|---|
Collect() | 强制对所有代进行即时垃圾回收。 |
Collect(Int32) | 强制对零代到指定代进行即时垃圾回收 |
Collect(Int32, GCCollectionMode) | 强制在 GCCollectionMode 值所指定的时间对零代到指定代进行垃圾回收 |
总的说来GC可以使程序员可以从复杂的内存问题中摆脱出来,从而提高了软件开发的速度、质量和安全性。