上篇講到如何寫一個python程序去處理大文件的內容讀取。 中間涉及了幾個很關鍵的概念, 可迭代對象, 生成器和文件對象。
本篇解釋下這幾個概念。
可迭代對象:
在python中一個列表,就是一個可迭代對象,同時它也是迭代器。我們可以用for i in mylist的方法去迭代它。 類似的還有鏈表, 文件對象等。
在python裏, 使用__iter__方法可以返回一個可迭代對象, 而next()方法實現一個迭代器的功能, 通過調用next()方法, 可以拿到循環的下一個值, 當沒有值可以拿的時候,就會拋出StopIteration的錯誤。 這在後面解釋文件對象的時候會進一步說明。
生成器:
生成器就是一個可以迭代的對象。 我們可以用for i in mygenerator的方法去讀取它。
如何生成一個生成器, 比如我們可以使用這樣的方法
mygenerator = (x*x for x in range(3))
你可能會注意到這個跟生成列表的方法很像,唯一的區別是把外邊的[ ] 換成了 ()。
另外一種產生生成器的方法, 是使用yield關鍵字。 包含有yield關鍵字的函數, python的解釋器會將其視爲generator.比如下面的例子:
In [30]: def createGenerator():
....: myList = range(3)
....: for i in myList:
....: yield i*i
....:
In [31]: mygenerator = createGenerator()
In [32]: mygenerator
Out[32]: <generator object createGenerator at 0x2e05690>
這個生成器和列表有很不一樣的地方。 比如, 它只能被讀取一次,也可以這麼說,生成器只能被迭代一次, 而列表可以被反覆的讀取。 我們在python shell裏做個實驗:
In [26]: mygenerator = (x*x for x in range(3))
In [27]: <span style="font-family:Arial, Helvetica, sans-serif;">mygenerator</span>
Out[27]: <generator object <genexpr> at 0x2e056e0>
In [28]: for i in mygenerator:
....: print i
....:
0
1
4
In [29]: for i in mygenerator:
....: print i
....:
In [30]:
當第二次去讀取mygenerator的時候, 就打印不出數據了。
文件對象:
In [36]: f = open('/tmp/test.log')
In [37]: f
Out[37]: <open file '/tmp/test.log', mode 'r' at 0x2d6fc90>
使用open的方法會生成一個文件對象。 這種方法其實是和使用file是一樣的。 例子如下:
In [38]: f2 = file('/tmp/test.log')
In [39]: f2
Out[39]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>
這兩種方法都是生成一個文件對象。 怎麼知道文件對象是一個可迭代的對象了, 我們通過查看python內置方法的源碼__builtin__.py中看到如下代碼:
class file(object):
def next(self):
""" x.next() -> the next value, or raise StopIteration """
pass
def __init__(self, name, mode=None, buffering=None):
pass
def __iter__(self):
""" x.__iter__() <==> iter(x) """
pass
前面提到, 在python裏, 使用__iter__方法可以返回一個可迭代對象, 而next()方法實現一個迭代器的功能, 通過調用next()方法, 可以拿到循環的下一個值, 當沒有值可以拿的時候,就會拋出StopIteration的錯誤。
看看下面的例子,可能會幫助你的理解:
In [41]: f2
Out[41]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>
In [42]: f2.next()
Out[42]: 'the first line \n'
In [43]: f2.next()
Out[43]: 'the second line \n'
In [44]: f2.next()
Out[44]: 'the 3rd line \n'
In [45]: f2.next()
---------------------------------------------------------------------------
StopIteration Traceback (most recent call last)
/tmp/<ipython-input-45-727bbb2668dc> in <module>()
----> 1 f2.next()
StopIteration:
In [46]:
轉載請註明來自: 作者hackstoic
【參考文獻】
1. http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html
2. https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
3. http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013946328809098c1be08a2c7e4319bd60269f62be04fa000
文章首發於 www.hackstoic.com