一,引用計數和垃圾回收介紹:
python採用"引用計數"和"垃圾回收"兩種機制來管理內存。引用計數通過記錄對象被引用的次數來管理對象。
對對象的引用都會使得引用計數加1,移除對對象的引用,引用計數則會減1,
當引用計數減爲0時,對象所佔的內存就會被釋放掉。
引用計數可以高效的管理對象的分配和釋放,但是有一個缺點,就是無法釋放引用循環的對象。
最簡單的就是下面的自己引用自己的例子:
def make_cycle():
l = [ ]
l.append(l)
make_cycle()
這個時候就需要垃圾回收機制(garbage collection),來回收循環應用的對象。垃圾回收機制會根據內存的分配和釋放情況的而被調用,
比如分配內存的次數減去釋放內存的次數大於某一個閾值的時候。
如下所示,我們可以通過gc對象來獲取閾值:
import gc
print "Garbage collection thresholds: %r" % gc.get_threshold()
# Garbage collection thresholds: (700, 10, 10)
當內存溢出時,不會自動調用garbage collection( gc ),因爲gc更看重的是垃圾對象的個數, 而不是大小。
對於長時間運行的程序,尤其是一些服務器應用,人爲主動的調用gc是非常有必要的,如下代碼所示:
import sys, gc
def make_cycle():
l = {}
l[0] = l
def main():
collected = gc.collect()
print "Garbage collector: collected %d objects." % (collected)
print "Creating cycles..."
for i in range(10):
make_cycle()
collected = gc.collect()
print "Garbage collector: collected %d objects." % (collected)
if __name__ == "__main__":
ret = main()
sys.exit(ret)
調用gc的策略有兩種,一種是固定時間間隔進行調用,另一種是基於事件的調用。如1,用戶終止了對應用的訪問,2,明顯監測到應用進入到閒置的狀態,
3,運行高性能服務前後,4,週期性、或階段性工作的前後。
注意gc雖好,但也不能常用,畢竟還是會消耗一定的計算資源。
二,gc垃圾回收方法(尋找引用循環對象):
可以發現,只有容器對象纔會出現引用循環,比如列表、字典、類、元組。首先,爲了追蹤容器對象,需要每個容器對象維護兩個額外的指針,
用來將容器對象組成一個鏈表,指針分別指向前後兩個容器對象,方便插入和刪除操作。
其次,每個容器對象還得添加gc_refs字段。
一次gc垃圾回收步驟:
1,使得gc_refs等於容器對象的引用計數。
2,遍歷每個容器對象(a),找到它(a)所引用的其它容器對象(b),將那個容器對象(b)的gc_refs減去1。
3,將所有gc_refs大於0的容器對象(a)取出來,組成新的隊列,因爲這些容器對象被容器對象隊列的外部所引用。
4,任何被新隊列裏面的容器對象,所引用的容器對象(舊隊列中)也要加入到新隊列裏面。
5,釋放舊隊列裏面的剩下的容器對象。(釋放容器對象時,它所引用的對象的引用計數也要減1)
三,gc分代機制:
gc採用分代(generations)的方法來管理對象,總共分爲三代(generation 0,1,2)。新產生的對象放到第0代裏面。
如果該對象在第0代的一次gc垃圾回收中活了下來,那麼它就被放到第1代裏面。
如果第1代裏面的對象在第1代的一次gc垃圾回收中活了下來,它就被放到第2代裏面。
gc.set_threshold(threshold0[, threshold1[, threshold2]])
設置gc每一代垃圾回收所觸發的閾值。從上一次第0代gc後,如果分配對象的個數減去釋放對象的個數大於threshold0,
那麼就會對第0代中的對象進行gc垃圾回收檢查。從上一次第1代gc後,如過第0代被gc垃圾回收的次數大於threshold1,
那麼就會對第1代中的對象進行gc垃圾回收檢查。同樣,從上一次第2代gc後,如過第1代被gc垃圾回收的次數大於threshold2,
那麼就會對第2代中的對象進行gc垃圾回收檢查。
如果threshold0設置爲0,表示關閉分代機制。
四,最後的bug:__del__方法:
最後的問題就是__del__方法的調用。我們知道當引用計數變爲0的時候,會先調用對象的__del__方法,然後再釋放對象。
但是當一個引用循環中對象有__del__方法時,gc就不知道該以什麼樣的順序來釋放環中對象。
因爲環中的a對象的__del__方法可能調用b對象,而b對象的__del__方法也有可能調用a對象。
所以需要人爲顯式的破環。
import gc
class A(object):
def __del__(self):
print '__del__ in A'
class B(object):
def __del__(self):
print '__del__ in B'
class C(object):
pass
if __name__=='__main__':
print 'collect: ',gc.collect()
print 'garbage: ',gc.garbage
a = A()
b = B()
c = C()
a.cc = c
c.bb = b
b.aa = a
del a,b,c
print 'collect: ',gc.collect()
print 'garbage: ',gc.garbage
del gc.garbage[0].cc # 當然,這是在我們知道第一個對象是 a的情況下,手動破除引用循環中的環
del gc.garbage[:] # 消除garbage對a和b對象的引用,這樣引用計數減1等於0,就能回收a、b、c三個對象了
print 'garbage: ',gc.garbage
print '----------------------------'
print 'collect: ',gc.collect()
print 'garbage: ',gc.garbage
如上所示:調用一次gc.collect(),首先檢查因爲引用循環而不可達對象,如果一個引用循環中所有對象都不包含__del__方法,那麼這個引用循環中的對象都將直接被釋放掉。
否則,將引用循環中包含__del__方法的對象加入到gc.garbage列表中。
(這時它們的引用計數也會加1,因此gc.collect()不會再對這個環進行處理)
用戶通過gc.garbage來獲取這些對象,手動消除引用,進行破環。
最後消除gc.garbage對這些對象的引用,這時這些對象的引用計數減1等於0,就自動被回收了。
否則由於gc.garbage對這些對象存在引用,這些對象將永遠不會被回收。
五,其它:
import weakref
class Foo(object):
pass
a = Foo()
a.bar = 123
a.bar2 = 123
del a
del a.bar2
b = weakref.ref(a)
print b().bar
print a == b()
c = weakref.proxy(a)
print c.bar
print c == a
del:只是使變量所代表的對象的引用計數減1,並在對應空間中刪除該變量名。weak.ref:會返回a對象的引用,但是不會讓a對象的引用計數加1。但是每次都得通過b()來獲取a對象。
weak.proxy:相對於weakref.ref更透明的可選操作,即直接通過c就獲取a對象。
閉包空間的變量和自由變量的釋放問題:
class A(object):
def __init__(self,name):
self._name = name
def __del__(self):
print '__del__ in ',self._name
def f1():
a = A('a')
b = A('b')
def f2():
c = A('c')
print a
return f2
if __name__=='__main__':
print 'f2 = f1():'
f2 = f1()
print '\na.__closure__:'
print f2.__closure__ # 查看f2的閉包裏面引用了a對象
print '\na():'
f2()
print '\ndel f2:'
del f2 # 此時已經沒有任何變量可以引用到返回的f2對象了。
print '\nover!'
參考:
http://www.digi.com/wiki/developer/index.php/Python_Garbage_Collectionhttp://arctrix.com/nas/python/gc/
https://docs.python.org/2.7/library/gc.html
注:python2.7版本