Python Import機制備忘-模塊搜索路徑(sys.path)、嵌套Import、package Import

最近在看《Python源碼剖析》,對Python內部運行機制比以前瞭解的更深入了,感覺自己有機會也可以做個小型的動態腳本語言了,呵呵,當然是吹牛了。目的當然不是創造一個動態語言,目的只有一個:更好的使用Python。看到模塊導入那塊的時候,終於對模塊導入機制比較瞭解了,以防忘記特記錄下來。

模塊的搜索路徑

模塊的搜索路徑都放在了sys.path列表中,如果缺省的sys.path中沒有含有自己的模塊或包的路徑,可以動態的加入(sys.path.apend)即可。下面是sys.path在Windows平臺下的添加規則。

1、sys.path第一個路徑往往是主模塊所在的目錄。在交互環境下添加一個空項,它對應當前目錄。

2、如果PYTHONPATH環境變量存在,sys.path會加載此變量指定的目錄。

3、我們嘗試找到Python Home,如果設置了PYTHONHOME環境變量,我們認爲這就是Python Home,否則,我們使用python.exe所在目錄找到lib/os.py去推斷Python Home。

如果我們確實找到了Python Home,則相關的子目錄(Lib、plat-win、lib-tk等)將以Python Home爲基礎加入到sys.path,並導入(執行)lib/site.py,將site-specific目錄及其下的包加入。

如果我們沒有找到Python Home,則把註冊表Software/Python/PythonCore/2.5/PythonPath的項加入sys.path(HKLM和 HKCU合併後加入),但相關的子目錄不會自動添加的。

4、如果我們沒有找到Python Home,並且沒有PYTHONPATH環境變量,並且不能在註冊表中找到PythonPath,那麼缺省相對路徑將加入(如:./Lib;./plat-win等)。

總結如下

當在安裝好的主目錄中運行Python.exe時,首先推斷Python Home,如果找到了PythonHome,註冊表中的PythonPath將被忽略;否則將註冊表的PythonPath加入。

如果PYTHONPATH環境變量存在,sys.path肯定會加載此變量指定的目錄。

如果Python.exe在另外的一個目錄下(不同的目錄,比如通過COM嵌入到其他程序),Python Home將不推斷,此時註冊表的PythonPath將被使用。

如果Python.exe不能發現他的主目錄(PythonHome),並且註冊表也沒有PythonPath,則將加入缺省的相對目錄。

 

標準Import

Python中所有加載到內存的模塊都放在sys.modules。當import一個模塊時首先會在這個列表中查找是否已經加載了此模塊,如果加載了則只是將模塊的名字加入到正在調用import的模塊的Local名字空間中。如果沒有加載則從sys.path目錄中按照模塊名稱查找模塊文件,模塊文件可以是py、pyc、pyd,找到後將模塊載入內存,並加入到sys.modules中,並將名稱導入到當前的Local名字空間。

可以看出了,一個模塊不會重複載入。多個不同的模塊都可以用import引入同一個模塊到自己的Local名字空間,其實背後的PyModuleObject對象只有一個。

說一個容易忽略的問題,import只能導入模塊,不能導入模塊中的對象(類、函數、變量等)。如一個模塊A(A.py)中有個函數getName,另一個模塊不能通過import A.getName將getName導入到本模塊,只能用import A。如果想只導入特定的類、函數、變量則用from A import getName即可。

嵌套Import

嵌套import,我分兩種情況,一種是:本模塊導入A模塊(import A),而A中又有import語句,會激活另一個import動作,如import B,而B模塊又可以import其他模塊,一直下去。

對這種嵌套比較容易理解,注意一點就是各個模塊的Local名字空間是獨立的,所以上面的例子,本模塊import A完了後本模塊只能訪問模塊A,不能訪問B及其他模塊。雖然模塊B已經加載到內存了,如果要訪問還要在明確的在本模塊中import B。

另外一種嵌套指,在模塊A中import B,而在模塊B中import A。這時會怎麼樣呢?這個在Python列表中由RobertChen給出了詳細解釋,抄錄如下:

[A.py] from B import D class C:pass [B.py] from A import C class D:pass

爲什麼執行A的時候不能加載D呢?

如果將A.py改爲:import B就可以了。

這是怎麼回事呢?

RobertChen:這跟Python內部import的機制是有關的,具體到from B import D,Python內部會分成幾個步驟:

  1. 在sys.modules中查找符號"B"
  2. 果符號B存在,則獲得符號B對應的module對象<module B>。

    從<module B>的__dict__中獲得符號"D"對應的對象,如果"D"不存在,則拋出異常

  3. 如果符號B不存在,則創建一個新的module對象<module B>,注意,這時,module對象的__dict__爲空。

    執行B.py中的表達式,填充<module B>的__dict__ 。

    從<module B>的__dict__中獲得"D"對應的對象,如果"D"不存在,則拋出異常。

所以,這個例子的執行順序如下:

1、執行A.py中的from B import D

由於是執行的python A.py,所以在sys.modules中並沒有<module B>存在,首先爲B.py創建一個module對象(<module B>),注意,這時創建的這個module對象是空的,裏邊啥也沒有,在Python內部創建了這個module對象之後,就會解析執行B.py,其目的是填充<module B>這個dict。

2、執行B.py中的from A import C

在執行B.py的過程中,會碰到這一句,首先檢查sys.modules這個module緩存中是否已經存在<module A>了,由於這時緩存還沒有緩存<module A>,所以類似的,Python內部會爲A.py創建一個module對象(<module A>),然後,同樣地,執行A.py中的語句。

3、再次執行A.py中的from B import D

這時,由於在第1步時,創建的<module B>對象已經緩存在了sys.modules中,所以直接就得到了<module B>,但是,注意,從整個過程來看,我們知道,這時<module B>還是一個空的對象,裏面啥也沒有,所以從這個module中獲得符號"D"的操作就會拋出異常。如果這裏只是import B,由於"B"這個符號在sys.modules中已經存在,所以是不會拋出異常的。

上面的解釋已經由Zoom.Quiet收錄在啄木鳥了,裏面有圖,可以參考一下。

Package(包) Import

包(Package)可以看成模塊的集合,只要一個文件夾下面有個__init__.py文件,那麼這個文件夾就可以看做是一個包。包下面的文件夾還可以成爲包(子包)。更進一步,多個較小的包可以聚合成一個較大的包,通過包這種結構,方便了類的管理和維護,也方便了用戶的使用。比如SQLAlchemy等都是以包的形式發佈給用戶的。

包和模塊其實是很類似的東西,如果查看包的類型import SQLAlchemy type(SQLAlchemy),可以看到其實也是<type 'module'>。import包的時候查找的路徑也是sys.path。

包導入的過程和模塊的基本一致,只是導入包的時候會執行此包目錄下的__init__.py而不是模塊裏面的語句了。另外,如果只是單純的導入包,而包的__init__.py中又沒有明確的其他初始化操作,那麼此包下面的模塊是不會自動導入的。如:

PA

--__init__.py

--wave.py

--PB1

  --__init__.py

  --pb1_m.py

--PB2

  --__init__.py

  --pb2_m.py

__init__.py都爲空,如果有以下程序:

 
  1. import sys
  2. import PA.wave  #1
  3. import PA.PB1   #2
  4. import PA.PB1.pb1_m as m1  #3
  5. import PA.PB2.pb2_m #4
  6. PA.wave.getName() #5
  7. m1.getName() #6
  8. PA.PB2.pb2_m.getName() #7

當執行#1後,sys.modules會同時存在PA、PA.wave兩個模塊,此時可以調用PA.wave的任何類或函數了。但不能調用PA.PB1(2)下的任何模塊。當前Local中有了PA名字。

當執行#2後,只是將PA.PB1載入內存,sys.modules中會有PA、PA.wave、PA.PB1三個模塊,但是PA.PB1下的任何模塊都沒有自動載入內存,此時如果直接執行PA.PB1.pb1_m.getName()則會出錯,因爲PA.PB1中並沒有pb1_m。當前Local中還是隻有PA名字,並沒有PA.PB1名字。

當執行#3後,會將PA.PB1下的pb1_m載入內存,sys.modules中會有PA、PA.wave、PA.PB1、PA.PB1.pb1_m四個模塊,此時可以執行PA.PB1.pb1_m.getName()了。由於使用了as,當前Local中除了PA名字,另外添加了m1作爲PA.PB1.pb1_m的別名。

當執行#4後,會將PA.PB2、PA.PB2.pb2_m載入內存,sys.modules中會有PA、PA.wave、PA.PB1、PA.PB1.pb1_m、PA.PB2、PA.PB2.pb2_m六個模塊。當前Local中還是隻有PA、m1。

下面的#5,#6,#7都是可以正確運行的。

注意的是:如果PA.PB2.pb2_m想導入PA.PB1.pb1_m、PA.wave是可以直接成功的。最好是採用明確的導入路徑,對於./..相對導入路徑還是不推薦用。

發佈了5 篇原創文章 · 獲贊 6 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章