用Python讀取大文件(下)

上篇講到如何寫一個python程序去處理大文件的內容讀取。 中間涉及了幾個很關鍵的概念, 可迭代對象, 生成器和文件對象。 


本篇解釋下這幾個概念。 


可迭代對象:

在python中一個列表,就是一個可迭代對象,同時它也是迭代器。我們可以用for i in mylist的方法去迭代它。 類似的還有鏈表, 文件對象等。 


在python裏, 使用__iter__方法可以返回一個可迭代對象, 而next()方法實現一個迭代器的功能, 通過調用next()方法, 可以拿到循環的下一個值, 當沒有值可以拿的時候,就會拋出StopIteration的錯誤。 這在後面解釋文件對象的時候會進一步說明。 


生成器:

生成器就是一個可以迭代的對象。 我們可以用for i in mygenerator的方法去讀取它。 


如何生成一個生成器, 比如我們可以使用這樣的方法

 mygenerator = (x*x for x in range(3))

你可能會注意到這個跟生成列表的方法很像,唯一的區別是把外邊的[  ] 換成了 ()。 


另外一種產生生成器的方法, 是使用yield關鍵字。 包含有yield關鍵字的函數, python的解釋器會將其視爲generator.比如下面的例子:


In [30]: def createGenerator():
   ....:     myList = range(3)
   ....:     for i in myList:
   ....:         yield i*i 
   ....:             

In [31]: mygenerator = createGenerator()

In [32]: mygenerator
Out[32]: <generator object createGenerator at 0x2e05690>



這個生成器和列表有很不一樣的地方。 比如, 它只能被讀取一次,也可以這麼說,生成器只能被迭代一次, 而列表可以被反覆的讀取。 我們在python shell裏做個實驗:

In [26]: mygenerator = (x*x for x in range(3))

In [27]: <span style="font-family:Arial, Helvetica, sans-serif;">mygenerator</span>

Out[27]: <generator object <genexpr> at 0x2e056e0>

In [28]: for i in mygenerator:
   ....:     print i
   ....:     
0
1
4

In [29]: for i in mygenerator:
   ....:     print i
   ....:     

In [30]: 

當第二次去讀取mygenerator的時候, 就打印不出數據了。 



文件對象:

In [36]: f = open('/tmp/test.log')

In [37]: f
Out[37]: <open file '/tmp/test.log', mode 'r' at 0x2d6fc90>

使用open的方法會生成一個文件對象。 這種方法其實是和使用file是一樣的。 例子如下:

In [38]: f2 = file('/tmp/test.log')

In [39]: f2
Out[39]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>


這兩種方法都是生成一個文件對象。 怎麼知道文件對象是一個可迭代的對象了, 我們通過查看python內置方法的源碼__builtin__.py中看到如下代碼:

class file(object):
    
    def next(self):
        """ x.next() -> the next value, or raise StopIteration """
        pass

    def __init__(self, name, mode=None, buffering=None): 
        pass

    def __iter__(self):
        """ x.__iter__() <==> iter(x) """
        pass


我們看到file這個類裏,包含了__iter__ 和 next的方法。 

前面提到, 在python裏, 使用__iter__方法可以返回一個可迭代對象, 而next()方法實現一個迭代器的功能, 通過調用next()方法, 可以拿到循環的下一個值, 當沒有值可以拿的時候,就會拋出StopIteration的錯誤。 


看看下面的例子,可能會幫助你的理解:

In [41]: f2
Out[41]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>

In [42]: f2.next()
Out[42]: 'the first line \n'

In [43]: f2.next()
Out[43]: 'the second line \n'

In [44]: f2.next()
Out[44]: 'the 3rd line \n'

In [45]: f2.next()
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
/tmp/<ipython-input-45-727bbb2668dc> in <module>()
----> 1 f2.next()

StopIteration: 

In [46]: 



----------------全文完----------------------


轉載請註明來自: 作者hackstoic


【參考文獻】

1. http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html 

2. https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/

3. http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013946328809098c1be08a2c7e4319bd60269f62be04fa000



文章首發於 www.hackstoic.com  



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章