自动内存治理让开发人员聚焦于应用程序逻辑上(例如,报表、解决数学问题)而不是内在细节,如内存分配。但是流行的计算机语言,如C和C++,直到最近才为支持自动内存治理提供了标准的方法。通用性和标准化是伴随着受控虚拟机的出现而产生的,这些虚拟机能执行中间语言,例如用于运行Java或者.NET语言的虚拟机。
一个事实上不太困难但是需要解决的有趣问题存在于自动内存治理领域中。问题的一半,即为一个程序分配内存是相对轻易解决的――难以解决的部分是程序结束时留下的一块内存。不再需要的内存,或者叫垃圾内存,由一个垃圾(内存)收集程序收集。其目的是在内存一变成垃圾时就将其释放掉,这样假如需要的话后来的程序就能重复使用这部分内存。
许多不同类型的算法已经能够处理内存治理的问题,但是仍没有一次解决所有问题的最好方法。本文所要讨论的算法是现在在Java和.NET虚拟机中使用的最流行的垃圾收集程序(GC)中的几种。垃圾收集算法或者是在对象被参照或者参照解除过程中被执行,或者是在快照模式下执行,后者就似乎应用程序的内存分配情况被定期冻结住,同时收集算法被运行,来找出垃圾。
参照计数
最直观的自动内存治理算法可能就是参照计数了。假如你不停地跟踪程序正在参照的是哪个对象,这些对象必须仍然是程序需要的。要实现这个算法,每个对象都有一个数据字段用于更新,以把握有多少其他的程序对象在参照(也就是说,指向)它。任何指向对象自身的参照都被忽略掉。假如计数到达了0,这个正在被考察的对象就被认为是垃圾。假如一个对象没有被任何程序参照,它事实上在内存里就是孤立的。从内存和性能的角度来看,这是收集垃圾内存最有效的方法。
不幸的是,计算机科学家在这个算法上面临一个无法克服的问题。假如两个对象或者一大串对象都相互指向对方,而且这一堆对象被从内存中孤立出来,那么就没有明显的方法指明这样的循环。既然所有的对象都含有一个至少为1的参照计数,那么它们就会一直保持非垃圾状态。
由于有这个问题,参照计数在现代虚拟机中不再常用。实际上,Java只对分布式对象(即远程方法的调用)使用参照计数,这种方法是从Modula-3的网络对象借用来的。分布式内存治理对垃圾收集产生了新的限制。这些在被较慢的对象访问和参照时可能在网络中丢失的东西必须要处理。尽管参照计数会让循环的垃圾对象存活在内存中,但是出于对性能和适用性的考虑,它仍比其它算法更适合垃圾收集。
标记和清除
标记和清除垃圾收集法看上去总是开发人员开发新系统时首选的垃圾收集法。这在理论上要比其它系统更轻易实现,但是心里应该清楚的是,这个轻易是相对的。这种算法在很多较早版本的Java虚拟机里使用过,现在仍然作为高级垃圾收集程序的子算法。
标记和清除是从穿越某个标准系统对象的指针开始的。这个对象对于虚拟机来说是非常要害的,因为假如这个对象将不再存在,那么这个虚拟机就结束了任务(也就是说程序执行完了)。每个通过穿越指针时碰到的对象被标记为“访问过”。这样通过递归的方式,所有碰到过的对象的所有指针都被穿越。实际上,这项操作穿越了位于系统标准对象根部的整个指针参照树,将沿路碰到的对象都标记一遍。
一旦这一步骤完成,算法就检查已知的存在对象的完整列表。假如发现有任何对象没有被标记,它们就被认为脱离了系统(即垃圾)。
这个算法很彻底、很简单,但是却摆脱不了一些很恼人的问题。首先它要求在其工作时所有的程序都要暂停运行。在穿越途中对参照树的更改也会给这个算法带来不利的影响。这个算法要对早期臭名昭著的Java执行的停顿负责。同时,断断续续的清除导致了内存碎片,这让(内存)分配程序的负担更重。最终必须进行内存整理已清除碎片,这又会导致执行过程中更多的停顿。