虛擬化技術簡介(Virtualization Technology Introduction)

    1、什麼是虛擬化?

虛擬化(Virtualization)技術最早出現在 20 世紀 60 年代的 IBM 大型機系統,在70年代的 System 370 系列中逐漸流行起來,這些機器通過一種叫虛擬機監控器(Virtual Machine MonitorVMM的程序在物理硬件之上生成許多可以運行獨立操作系統軟件的虛擬機(Virtual MachineVM實例。隨着近年多核系統、集羣、網格甚至雲計算的廣泛部署,虛擬化技術在商業應用上的優勢日益體現,不僅降低了 IT 成本,而且還增強了系統安全性和可靠性,虛擬化的概念也逐漸深入到人們日常的工作與生活中。

虛擬化是一個廣義的術語,對於不同的人來說可能意味着不同的東西,這要取決他們所處的環境。在計算機科學領域中,虛擬化代表着對計算資源的抽象,而不僅僅侷限於虛擬機的概念。例如對物理內存的抽象,產生了虛擬內存技術,使得應用程序認爲其自身擁有連續可用的地址空間(Address Space,而實際上,應用程序的代碼和數據可能是被分隔成多個碎片頁或段,甚至被交換到磁盤、閃存等外部存儲器上,即使物理內存不足,應用程序也能順利執行。

2、虛擬化技術的分類:

虛擬化技術主要分爲以下幾個大類

平臺虛擬化(Platform Virtualization:針對計算機和操作系統的虛擬化。資源虛擬化(Resource Virtualization):針對特定的系統資源的虛擬化,比如內存、存儲、網絡資源等。

應用程序虛擬化(Application Virtualization:包括仿真、模擬、解釋技術等。

我們通常所說的虛擬化主要是指平臺虛擬化技術,通過使用控制程序(Control Program,也被稱爲 Virtual Machine Monitor Hypervisor,隱藏特定計算平臺的實際物理特性,爲用戶提供抽象的、統一的、模擬的計算環境(稱爲虛擬機)。虛擬機中運行的操作系統被稱爲客戶機操作系統(Guest OS,運行虛擬機監控器的操作系統被稱爲主機操作系統(Host OS,當然某些虛擬機監控器可以脫離操作系統直接運行在硬件之上(如 VMWARE  ESX 產品)。運行虛擬機的真實系統我們稱之爲主機系統。

平臺虛擬化技術又可以細分爲如下幾個子類:

全虛擬化(Full Virtualization

全虛擬化是指虛擬機模擬了完整的底層硬件,包括處理器、物理內存、時鐘、外設等,使得爲原始硬件設計的操作系統或其它系統軟件完全不做任何修改就可以在虛擬機中運行。操作系統與真實硬件之間的交互可以看成是通過一個預先規定的硬件接口進行的。全虛擬化 VMM 以完整模擬硬件的方式提供全部接口(同時還必須模擬特權指令的執行過程)。舉例而言,x86 體系結構中,對於操作系統切換進程頁表的操作,真實硬件通過提供一個特權 CR3 寄存器來實現該接口,操作系統只需執行 "mov pgtable,%%cr3" 彙編指令即可。全虛擬化 VMM 必須完整地模擬該接口執行的全過程。如果硬件不提供虛擬化的特殊支持,那麼這個模擬過程將會十分複雜:一般而言,VMM 必須運行在最高優先級來完全控制主機系統,而 Guest OS 需要降級運行,從而不能執行特權操作。當 Guest OS 執行前面的特權彙編指令時,主機系統產生異常(General Protection Exception),執行控制權重新從 Guest OS 轉到 VMM 手中。VMM 事先分配一個變量作爲影子 CR3 寄存器給 Guest OS,將 pgtable 代表的客戶機物理地址(Guest Physical Address)填入影子 CR3 寄存器,然後 VMM 還需要 pgtable 翻譯成主機物理地址(Host Physical Address)並填入物理 CR3 寄存器,最後返回到 Guest OS中。隨後 VMM 還將處理複雜的 Guest OS 缺頁異常(Page Fault比較著名的全虛擬化 VMM  Microsoft Virtual PCVMware WorkstationSun Virtual BoxParallels Desktop for Mac  QEMU

超虛擬化(Paravirtualization

這是一種修改 Guest OS 部分訪問特權狀態的代碼以便直接與 VMM 交互的技術。在超虛擬化虛擬機中,部分硬件接口以軟件的形式提供給客戶機操作系統,這可以通過 HypercallVMM 提供給 Guest OS 的直接調用,與系統調用類似)的方式來提供。例如,Guest OS 把切換頁表的代碼修改爲調用 Hypercall 來直接完成修改影子 CR3 寄存器和翻譯地址的工作。由於不需要產生額外的異常和模擬部分硬件執行流程,超虛擬化可以大幅度提高性能,比較著名的 VMM  DenaliXen

硬件輔助虛擬化(Hardware-Assisted Virtualization

硬件輔助虛擬化是指藉助硬件(主要是主機處理器)的支持來實現高效的全虛擬化。例如有了 Intel-VT 技術的支持,Guest OS  VMM 的執行環境自動地完全隔離開來,Guest OS 有自己的全套寄存器,可以直接運行在最高級別。因此在上面的例子中,Guest OS 能夠執行修改頁表的彙編指令。Intel-VT  AMD-V 是目前 x86 體系結構上可用的兩種硬件輔助虛擬化技術。

部分虛擬化(Partial Virtualization

 VMM 只模擬部分底層硬件,因此客戶機操作系統不做修改是無法在虛擬機中運行的,其它程序可能也需要進行修改。在歷史上,部分虛擬化是通往全虛擬化道路上的重要里程碑,最早出現在第一代的分時系統 CTSS  IBM M44/44X 實驗性的分頁系統中。

操作系統級虛擬化(Operating System Level Virtualization

在傳統操作系統中,所有用戶的進程本質上是在同一個操作系統的實例中運行,因此內核或應用程序的缺陷可能影響到其它進程。操作系統級虛擬化是一種在服務器操作系統中使用的輕量級的虛擬化技術,內核通過創建多個虛擬的操作系統實例(內核和庫)來隔離不同的進程,不同實例中的進程完全不瞭解對方的存在。比較著名的有 Solaris Container FreeBSD Jail  OpenVZ 

這種分類並不是絕對的,一個優秀的虛擬化軟件往往融合了多項技術。例如 VMware Workstation 是一個著名的全虛擬化的 VMM,但是它使用了一種被稱爲動態二進制翻譯的技術把對特權狀態的訪問轉換成對影子狀態的操作,從而避免了低效的 Trap-And-Emulate 的處理方式,這與超虛擬化相似,只不過超虛擬化是靜態地修改程序代碼。對於超虛擬化而言,如果能利用硬件特性,那麼虛擬機的管理將會大大簡化,同時還能保持較高的性能。

本文討論的虛擬化技術只針對 x86 平臺(含 AMD 64),並假定虛擬機中運行的 Guest OS 也是爲 x86 平臺設計的。

3、純軟件虛擬化技術的原理及面臨的挑戰

3.1、虛擬機監控器應當具備的條件

1974 年,Popek  Goldberg 在《Formal Requirements for Virtualizable Third Generation Architectures論文中提出了一組稱爲虛擬化準則的充分條件,滿足這些條件的控制程序可以被稱爲虛擬機監控器(Virtual Machine Monitor,簡稱 VMM):

資源控制。控制程序必須能夠管理所有的系統資源。

等價性。在控制程序管理下運行的程序(包括操作系統),除時序和資源可用性之外的行爲應該與沒有控制程序時的完全一致,且預先編寫的特權指令可以自由地執行。

效率性。絕大多數的客戶機指令應該由主機硬件直接執行而無需控制程序的參與。

儘管基於簡化的假設,但上述條件仍爲評判一個計算機體系結構是否能夠有效支持虛擬化提供了一個便利方法,也爲設計可虛擬化計算機架構給出了指導原則。

3.2、原理簡介

我們知道,傳統的 x86 體系結構缺乏必要的硬件支持,任何虛擬機監控器都無法直接滿足上述條件,所以不是一個可虛擬化架構,但是我們可以使用純軟件實現的方式構造虛擬機監控器。

虛擬機是對真實計算環境的抽象和模擬,VMM 需要爲每個虛擬機分配一套數據結構來管理它們狀態,包括虛擬處理器的全套寄存器,物理內存的使用情況,虛擬設備的狀態等等。VMM 調度虛擬機時,將其部分狀態恢復到主機系統中。並非所有的狀態都需要恢復,例如主機 CR3 寄存器中存放的是 VMM 設置的頁表物理地址,而不是 Guest OS 設置的值。主機處理器直接運行 Guest OS 的機器指令,由於 Guest OS運行在低特權級別,當訪問主機系統的特權狀態(如寫 GDT 寄存器)時,權限不足導致主機處理器產生異常,將運行權自動交還給 VMM。此外,外部中斷的到來也會導致 VMM 的運行。VMM 可能需要先將該虛擬機的當前狀態寫回到狀態數據結構中,分析虛擬機被掛起的原因,然後代表 Guest OS 執行相應的特權操作。最簡單的情況,如Guest OS  CR3 寄存器的修改,只需要更新虛擬機的狀態數據結構即可。一般而言,大部分情況下,VMM 需要經過複雜的流程才能完成原本簡單的操作。最後 VMM 將運行權還給 Guest OSGuest OS 從上次被中斷的地方繼續執行,或處理 VMM “入的虛擬中斷和異常。這種經典的虛擬機運行方式被稱爲 Trap-And-Emulate,虛擬機對於 Guest OS 完全透明,Guest OS 不需要任何修改,但是 VMM 的設計會比較複雜,系統整體性能受到明顯的損害。

3.3、面臨的挑戰

在設計純軟件 VMM 的時候,需要解決如下挑戰

確保 VMM 控制所有的系統資源

 x86 處理器有 4 個特權級別,Ring 0 ~ Ring 3,只有運行在 Ring 0 ~ 2 級時,處理器纔可以訪問特權資源或執行特權指令;運行在 Ring 0 級時,處理器可以訪問所有的特權狀態。x86 平臺上的操作系統一般只使用 Ring 0  Ring 3 這兩個級別,操作系統運行在 Ring 0 級,用戶進程運行在 Ring 3 級。爲了滿足上面的第一個充分條件-資源控制,VMM 自己必須運行在 Ring 0 級,同時爲了避免 Guest OS 控制系統資源,Guest OS 不得不降低自身的運行級別,運行在 Ring 1  Ring 3 級(Ring 2 不使用)。

特權級壓縮(Ring Compression

 VMM 使用分頁或段限制的方式保護物理內存的訪問,但是 64 位模式下段限制不起作用,而分頁又不區分 Ring 0, 1, 2。爲了統一和簡化 VMM的設計,Guest OS 只能和 Guest 進程一樣運行在 Ring 3 級。VMM 必須監視 Guest OS  GDTIDT 等特權資源的設置,防止 Guest OS 運行在 Ring 0級,同時又要保護降級後的 Guest OS 不受 Guest 進程的主動***或無意破壞。

特權級別名(Ring Alias

特權級別名是指 Guest OS 在虛擬機中運行的級別並不是它所期望的。VMM 必須保證 Guest OS 不能獲知正在虛擬機中運行這一事實,否則可能打破等價性條件。例如,x86 處理器的特權級別存放在 CS 代碼段寄存器內,Guest OS 可以使用非特權 push 指令將 CS 寄存器壓棧,然後 pop 出來檢查該值。又如,Guest OS 在低特權級別時讀取特權寄存器 GDTLDTIDT  TR,並不發生異常,從而可能發現這些值與自己期望的不一樣。爲了解決這個挑戰,VMM 可以使用動態二進制翻譯的技術,例如預先把 “push %%cs” 指令替換,在棧上存放一個影子 CS 寄存器值;又如,可以把讀取 GDT 寄存器的操作“sgdt dest”改爲“movl fake_gdt, dest”

地址空間壓縮(Address Space Compression

地址空間壓縮是指 VMM 必須在Guest OS 的地址空間中保留一部分供其使用。例如,中斷描述表寄存器(IDT Register)中存放的是中斷描述表的線性地址,如果 Guest OS 運行過程中來了外部中斷或觸發處理器異常,必須保證運行權馬上轉移到 VMM 中,因此 VMM 需要將 Guest OS 的一部分線性地址空間映射成自己的中斷描述表的主機物理地址。VMM 可以完全運行在 Guest OS 的地址空間中,也可以擁有獨立的地址空間,後者的話,VMM 只佔用 Guest OS 很少的地址空間,用於存放中斷描述表和全局描述符表(GDT)等重要的特權狀態。無論如何哪種情況,VMM 應該防止 Guest OS 直接讀取和修改這部分地址空間。

處理 Guest OS 的缺頁異常

內存是一種非常重要的系統資源,VMM 必須全權管理,Guest OS 理解的物理地址只是客戶機物理地址(Guest Physical Address),並不是最終的主機物理地址(Host Physical Address)。當 Guest OS 發生缺頁異常時,VMM 需要知道缺頁異常的原因,是 Guest 進程試圖訪問沒有權限的地址,或是客戶機線性地址(Guest Linear Address)尚未翻譯成 Guest Physical Address,還是客戶機物理地址尚未翻譯成主機物理地址。一種可行的解決方法是 VMM  Guest OS 的每個進程的頁表構造一個影子頁表,維護 Guest Linear Address  Host Physical Address 的映射,主機 CR3 寄存器存放這個影子頁表的物理內存地址。VMM 同時維護一個 Guest OS 全局的 Guest Physical Address  Host Physical Address 的映射表。發生缺頁異常的地址總是Guest Linear AddressVMM 先去 Guest OS 中的頁表檢查原因,如果頁表項已經建立,即對應的Guest Physical Address 存在,說明尚未建立到 Host Physical Address的映射,那麼 VMM 分配一頁物理內存,將影子頁表和映射表更新;否則,VMM 返回到 Guest OS,由 Guest OS 自己處理該異常。

處理 Guest OS 中的系統調用

系統調用是操作系統提供給用戶的服務例程,使用非常頻繁。最新的操作系統一般使用 SYSENTER/SYSEXIT 指令對來實現快速系統調用。SYSENTER 指令通過IA32_SYSENTER_CSIA32_SYSENTER_EIP  IA32_SYSENTER_ESP  3  MSRModel Specific Register)寄存器直接轉到 Ring 0級;而 SYSEXIT 指令不在 Ring 0 級執行的話將觸發異常。因此,如果 VMM 只能採取 Trap-And-Emulate 的方式處理這 2 條指令的話,整體性能將會受到極大損害。

轉發虛擬的中斷和異常

所有的外部中斷和主機處理器的異常直接由 VMM 接管,VMM 構造必需的虛擬中斷和異常,然後轉發給 Guest OSVMM 需要模擬硬件和操作系統對中斷和異常的完整處理流程,例如 VMM 先要在 Guest OS 當前的內核棧上壓入一些信息,然後找到 Guest OS 相應處理例程的地址,並跳轉過去。VMM 必須對不同的 Guest OS 的內部工作流程比較清楚,這增加了 VMM 的實現難度。同時,Guest OS 可能頻繁地屏蔽中斷和啓用中斷,這兩個操作訪問特權寄存器 EFLAGS,必須由 VMM 模擬完成,性能因此會受到損害。 Guest OS 重新啓用中斷時,VMM 需要及時地獲知這一情況,並將積累的虛擬中斷轉發。

Guest OS 頻繁訪問特權資源

 Guest OS對特權資源的每次訪問都會觸發處理器異常,然後由 VMM 模擬執行,如果訪問過於頻繁,則系統整體性能將會受到極大損害。比如對中斷的屏蔽和啓用,cliClear Interrupts)指令在 Pentium 4 處理器上需要花費 60 個時鐘週期(cycle)。又如,處理器本地高級可編程中斷處理器(Local APIC)上有一個操作系統可修改的任務優先級寄存器(Task-Priority Register),IO-APIC 將外部中斷轉發到 TPR 值最低的處理器上(期望該處理器正在執行低優先級的線程),從而優化中斷的處理。TPR 是一個特權寄存器,某些操作系統會頻繁設置(Linux Kernel只在初始化階段爲每個處理器的 TPR 設置相同的值)。

軟件 VMM 所遇到的以上挑戰從本質上來說是因爲 Guest OS 無法運行在它所期望的最高特權級,傳統的 Trap-And-Emulate 處理方式雖然以透明的方式基本解決上述挑戰,但是帶來極大的設計複雜性和性能下降。當前比較先進的虛擬化軟件結合使用二進制翻譯和超虛擬化的技術,核心思想是動態或靜態地改變 Guest OS 對特權狀態訪問的操作,儘量減少產生不必要的硬件異常,同時簡化 VMM 的設計。

4Intel-VT 硬件輔助虛擬化技術詳解

 2005 年冬天,英特爾帶來了業內首個面向臺式機的硬件輔助虛擬化技術 Intel-VT 及相關的處理器產品,從而拉開了 IA 架構虛擬化技術應用的新時代大幕。支持虛擬化技術的處理器帶有特別優化過的指令集來自動控制虛擬化過程,從而極大簡化 VMM 的設計,VMM 的性能也能得到很大提高。其中 IA-32 處理器的虛擬化技術稱爲 VT-x,安騰處理器的虛擬化技術稱爲 VT-iAMD 公司也推出了自己的虛擬化解決方案,稱爲 AMD-V。儘管 Intel-VT  AMD-V 並不完全相同,但是基本思想和數據結構卻是相似的,本文只討論 Intel-VT-x 技術。

 4.1、新增的兩種操作模式

 VT-x  IA 32 處理器增加了兩種操作模式:VMX root operation  VMX non-root operationVMM 自己運行在 VMX root operation 模式,VMX non-root operation 模式則由 Guest OS 使用。兩種操作模式都支持 Ring 0 ~ Ring 3  4 個特權級,因此 VMM  Guest OS 都可以自由選擇它們所期望的運行級別。

這兩種操作模式可以互相轉換。運行在 VMX root operation 模式下的 VMM 通過顯式調用 VMLAUNCH  VMRESUME 指令切換到 VMX non-root operation 模式,硬件自動加載 Guest OS的上下文,於是 Guest OS 獲得運行,這種轉換稱爲 VM entryGuest OS 運行過程中遇到需要 VMM 處理的事件,例如外部中斷或缺頁異常,或者主動調用 VMCALL 指令調用 VMM 的服務的時候(與系統調用類似),硬件自動掛起 Guest OS,切換到 VMX root operation 模式,恢復 VMM 的運行,這種轉換稱爲 VM exitVMX root operation 模式下軟件的行爲與在沒有 VT-x 技術的處理器上的行爲基本一致;而VMX non-root operation 模式則有很大不同,最主要的區別是此時運行某些指令或遇到某些事件時,發生 VM exit

4.2虛擬機控制塊

 VMM  Guest OS 共享底層的處理器資源,因此硬件需要一個物理內存區域來自動保存或恢復彼此執行的上下文。這個區域稱爲虛擬機控制塊(VMCS),包括客戶機狀態區(Guest State Area),主機狀態區(Host State Area)和執行控制區。VM entry 時,硬件自動從客戶機狀態區加載 Guest OS 的上下文。並不需要保存 VMM 的上下文,原因與中斷處理程序類似,因爲 VMM 如果開始運行,就不會受到 Guest OS的干擾,只有 VMM 將工作徹底處理完畢纔可能自行切換到 Guest OS。而 VMM 的下次運行必然是處理一個新的事件,因此每次 VMM entry 時, VMM 都從一個通用事件處理函數開始執行;VM exit 時,硬件自動將 Guest OS 的上下文保存在客戶機狀態區,從主機狀態區中加載 VMM 的通用事件處理函數的地址,VMM 開始執行。而執行控制區存放的則是可以操控 VM entry  exit 的標誌位,例如標記哪些事件可以導致 VM exitVM entry 時準備自動給 Guest OS “入哪種中斷等等。

客戶機狀態區和主機狀態區都應該包含部分物理寄存器的信息,例如控制寄存器 CR0CR3CR4ESP  EIP(如果處理器支持 64 位擴展,則爲 RSPRIP);CSSSDSESFSGS 等段寄存器及其描述項;TRGDTRIDTR 寄存器;IA32_SYSENTER_CSIA32_SYSENTER_ESPIA32_SYSENTER_EIP  IA32_PERF_GLOBAL_CTRL  MSR 寄存器。客戶機狀態區並不包括通用寄存器的內容,VMM 自行決定是否在 VM exit 的時候保存它們,從而提高了系統性能。客戶機狀態區還包括非物理寄存器的內容,比如一個 32 位的 Active State 值表明 Guest OS 執行時處理器所處的活躍狀態,如果正常執行指令就是處於 Active 狀態,如果觸發了三重故障(Triple Fault)或其它嚴重錯誤就處於 Shutdown 狀態,等等。

前文已經提過,執行控制區用於存放可以操控 VM entry  VM exit 的標誌位,包括:

External-interrupt exiting:用於設置是否外部中斷可以觸發 VM exit,而不論 Guest OS 是否屏蔽了中斷。

Interrupt-window exiting:如果設置,當 Guest OS 解除中斷屏蔽時,觸發 VM exit

 Use TPR shadow:通過 CR8 訪問 Task Priority RegisterTPR)的時候,使用 VMCS 中的影子 TPR,可以避免觸發 VM exit。同時執行控制區還有一個 TPR 閾值的設置,只有當 Guest OS 設置的 TR 值小於該閾值時,才觸發 VM exit

 CR masks and shadows:每個控制寄存器的每一位都有對應的掩碼,控制 Guest OS 是否可以直接寫相應的位,或是觸發 VM exit。同時 VMCS 中包括影子控制寄存器,Guest OS 讀取控制寄存器時,硬件將影子控制寄存器的值返回給 Guest OS

 VMCS 還包括一組位圖以提供更好的適應性:

 Exception bitmap:選擇哪些異常可以觸發 VM exit

 I/O bitmap:對哪些 16 位的 I/O 端口的訪問觸發 VM exit

 MSR bitmaps:與控制寄存器掩碼相似,每個 MSR 寄存器都有一組的位圖掩碼和一組的位圖掩碼。

每次發生 VM exit時,硬件自動在 VMCS 中存入豐富的信息,方便 VMM 甄別事件的種類和原因。VM entry 時,VMM 可以方便地爲 Guest OS 注入事件(中斷和異常),因爲 VMCS 中存有 Guest OS 的中斷描述表(IDT)的地址,因此硬件能夠自動地調用 Guest OS 的處理程序。

更詳細的信息請參閱 Intel 開發手冊

5、解決純軟件虛擬化技術面臨的挑戰

首先,由於新的操作模式的引入,VMM  Guest OS 的執行由硬件自動隔離開來,任何關鍵的事件都可以將系統控制權自動轉移到 VMM,因此 VMM 能夠完全控制系統的全部資源。

其次,Guest OS 可以運行在它所期望的最高特權級別,因此特權級壓縮和特權級別名的問題迎刃而解,而且 Guest OS 中的系統調用也不會觸發 VM exit

硬件使用物理地址訪問虛擬機控制塊(VMCS),而 VMCS 保存了 VMM  Guest OS 各自的 IDTR  CR3 寄存器,因此 VMM 可以擁有獨立的地址空間,Guest OS 能夠完全控制自己的地址空間,地址空間壓縮的問題也不存在了。

中斷和異常虛擬化的問題也得到了很好的解決。VMM 只用簡單地設置需要轉發的虛擬中斷或異常,在 VM entry 時,硬件自動調用 Guest OS 的中斷和異常處理程序,大大簡化 VMM 的設計。同時,Guest OS 對中斷的屏蔽及解除可以不觸發 VM exit,從而提高了性能。而且 VMM 還可以設置當 Guest OS 解除中斷屏蔽時觸發 VM exit,因此能夠及時地轉發積累的虛擬中斷和異常。

6、未來虛擬化技術的發展

我們可以看到,硬件輔助虛擬化技術必然是未來的方向。Intel-VT目前還處在處理器級虛擬化技術的初級階段,尚需在如下方面進行發展:

提高操作模式間的轉換速度

兩種操作模式間的轉換髮生之如此頻繁,如果不能有效減少其轉換速度,即使充分利用硬件特性,虛擬機的整體性能也會大打折扣。早期的支持硬件輔助虛擬化技術的 Pentium 4 處理器需要花費 2409 個時鐘週期處理 VM entry,花費 508 個時鐘週期處理由缺頁異常觸發的 VM exit,代價相當高。隨着 Intel 技術的不斷完善,在新的 Core 架構上,相應時間已經減少到 937  446 個時鐘週期。未來硬件廠商還需要進一步提高模式的轉換速度,並提供更多的硬件特性來減少不必要的轉換。

優化翻譯後援緩衝器(TLB)的性能

每次 VM entry  VM exit 發生時,由於需要重新加載 CR3 寄存器,因此 TLBTranslation Lookaside Buffer)被完全清空。虛擬化系統中操作模式的轉換髮生頻率相當高,因此係統的整體性能受到明顯損害。一種可行的方案是爲 VMM 和每個虛擬機分配一個全局唯一 IDTLB 的每一項附加該 ID 信息來索引線性地址的翻譯。

提供內存管理單元(MMU)虛擬化的硬件支持

即使使用 Intel-VT 技術,VMM 還是得用老辦法來處理 Guest OS 中發生的缺頁異常以及Guest OS 的客戶機物理地址到主機物理地址的翻譯,本質原因是 VMM 完全控制主機物理內存,因此 Guest OS 中的線性地址的翻譯同時牽涉到 VMM  Guest OS 的地址空間,而硬件只能看到其中的一個。Intel  AMD 提出了各自的解決方案,分別叫做 EPTExtended Page Table)和 Nested Paging。這兩種技術的基本思想是,無論何時遇到客戶機物理地址,硬件自動搜索 VMM 提供的關於該 Guest OS 的一個頁表,翻譯成主機物理地址,或產生缺頁異常來觸發 VM exit

支持高效的 I/O 虛擬化

 I/O 虛擬化需要考慮性能、可用性、可擴展性、可靠性和成本等多種因素。最簡單的方式是 VMM爲虛擬機模擬一個常見的 I/O 設備,該設備的功能由 VMM 用軟件或複用主機 I/O 設備的方法實現。例如 Virtual PC 虛擬機提供的是一種比較古老的 S3 Trio64顯卡。這種方式提高了兼容性,並充分利用 Guest OS 自帶的設備驅動程序,但是虛擬的 I/O 設備功能有限且性能低下。爲了提高性能,VMM 可以直接將主機 I/O 設備分配給虛擬機,這會帶來兩個主要挑戰:

 1. 如果多個虛擬機可以複用同一個設備,VMM 必須保證它們對設備的訪問不會互相干擾。

 2. 如果 Guest OS 使用 DMA 的方式訪問 I/O 設備,由於 Guest OS 給出的地址並不是主機物理地址,VMM 必須保證在啓動 DMA 操作前將該地址正確轉換。Intel  AMD 分別提出了各自的解決方案,分別稱爲 Direct I/OVT-d)和 IOMMU,希望用硬件的手段解決這些問題,降低 VMM 實現的難度。

         該博文PDF版下載鏈接:http://pan.baidu.com/s/1jGuo7au 密碼:kxzt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章