ARM MMU 理解(基於ARM920T)

MMU簡介

嵌入式系統中，存儲系統差別很大，可包含多種類型的存儲器件，如FLASH，SRAM，SDRAM，ROM等，這些不同類型的存儲器件速度和寬度等各不相同；在訪問存儲單元時，可能採取平板式的地址映射機制對其操作，或需要使用虛擬地址對其進行讀寫；系統中，需引入存儲保護機制，增強系統的安全性。爲適應如此複雜的存儲體系要求，ARM處理器中引入了存儲管理單元來管理存儲系統。

在ARM存儲系統中，使用MMU實現虛擬地址到實際物理地址的映射。爲何要實現這種映射？首先就要從一個嵌入式系統的基本構成和運行方式着手。系統上電時，處理器的程序指針從0x0（或者是由0Xffff_0000處高端啓動）處啓動，順序執行程序，在程序指針（PC）啓動地址，屬於非易失性存儲器空間範圍，如ROM、FLASH等。然而與上百兆的嵌入式處理器相比，FLASH、ROM等存儲器響應速度慢，已成爲提高系統性能的一個瓶頸。而SDRAM具有很高的響應速度，爲何不使用SDRAM來執行程序呢？爲了提高系統整體速度，可以這樣設想，利用FLASH、ROM對系統進行配置，把真正的應用程序下載到SDRAM中運行，這樣就可以提高系統的性能。然而這種想法又遇到了另外一個問題，當ARM處理器響應異常事件時，程序指針將要跳轉到一個確定的位置，假設發生了IRQ中斷，PC將指向0x18(如果爲高端啓動，則相應指向0vxffff_0018處)，而此時0x18處仍爲非易失性存儲器所佔據的位置，則程序的執行還是有一部分要在FLASH或者ROM中來執行的。那麼我們可不可以使程序完全都SDRAM中運行那？答案是肯定的，這就引入了 MMU，利用MMU，可把SDRAM的地址完全映射到0x0起始的一片連續地址空間，而把原來佔據這片空間的FLASH或者ROM映射到其它不相沖突的存儲空間位置。例如，FLASH的地址從0x0000_0000－0x00ff_ffff,而SDRAM的地址範圍是 0x3000_0000－0x31ff_ffff，則可把SDRAM地址映射爲0x0000_0000－0x1fff_ffff而FLASH的地址可以映射到0x9000_0000－0x90ff_ffff（此處地址空間爲空閒，未被佔用）。映射完成後，如果處理器發生異常，假設依然爲IRQ中斷，PC指針指向0x18處的地址，而這個時候PC實際上是從位於物理地址的0x3000_0018處讀取指令。通過MMU的映射，則可實現程序完全運行在 SDRAM之中。
在實際的應用中，可能會把兩片不連續的物理地址空間分配給SDRAM。而在操作系統中，習慣於把SDRAM的空間連續起來，方便內存管理，且應用程序申請大塊的內存時，操作系統內核也可方便地分配。通過MMU可實現不連續的物理地址空間映射爲連續的虛擬地址空間。
操作系統內核或者一些比較關鍵的代碼，一般是不希望被用戶應用程序所訪問的。通過MMU可以控制地址空間的訪問權限，從而保護這些代碼不被破壞。
MMU的實現過程，實際上就是一個查表映射的過程。建立頁表（translate table）是實現MMU功能不可缺少的一步。頁表是位於系統的內存中，頁表的每一項對應於一個虛擬地址到物理地址的映射。每一項的長度即是一個字的長度（在ARM中，一個字的長度被定義爲4字節）。頁表項除完成虛擬地址到物理地址的映射功能之外，還定義了訪問權限和緩衝特性等。
MMU的映射分爲兩種，一級頁表的變換和二級頁表變換。兩者的不同之處就是所實現的變換地址空間大小不同。一級頁表變換支持1M大小的存儲空間的映射，而二級可以支持64KB、4KB和1KB大小地址空間的映射。
要實現從虛擬地址到物理地址的映射，必然會遇到一個問題，如何找到這個頁表。對於表的查找，要知道這個表的基地址和偏移地址，在具有MMU功能的處理器中，集成了一個被稱爲CP15的協處理器，該協處理器的C2寄存器中用於保存頁表的基地址，下面以一級頁表變換爲例說明MMU實現地址變換的過程。
如圖1.1所示，當處理器訪問一個虛擬地址時，該虛擬地址的[31：20]作爲偏移地址與頁基地址結合（基地址必須是64KB對齊的，因此基地址的 [13：0]位都爲0），得到一個32位的頁表項地址（因爲頁表項爲4字節對齊，[1：0]兩位爲0）。通過這個頁表項地址可以檢索到該頁表項。頁表項的格式如下：

表 1.3
表 1.4
查找到頁表項後，根據頁表項的訪問特性（緩衝以及是否允許訪問等）協處理器決定是否允許訪問。如不允許訪問，則協處理器向CPU報告出錯信息；反之，由頁表項的[31：20]位與虛擬地址的[19：0]一起組成實際的物理地址，實現從虛擬地址到物理地址的映射。

對於實際編程工作而言，主要是確定如何編寫頁表中的內容並如何確定頁表項地址。現舉例如下：
假設物理地址爲0x36B0_0000~0x36Bf_ffff（1M空間）的一塊連續空間需映射爲0x0100_0000~0x010f_ffff的一塊連續空間：
1．確定頁表項中的內容：把物理地址的基地址作爲頁表項的高12位（31bit～21bit），填寫訪問屬性。假設可以讀寫，可以讀緩存、寫緩衝，這樣該頁表項內容爲0x36B0_0C00E；
2．確定頁表基地址，填寫頁表基地址到CP15寄存器的C2中。頁表的基地址要爲64KB對齊；
3．計算出偏移地址，把內容填寫到頁表項地址中。頁表項地址=頁表基地址+（物理地址基地址>>18）,如頁表基地址爲 0xA100_0000,那麼，頁表項地址=0xA100_0DAC；
4．將頁表項數值寫到對應的頁表項地址中。上例中，需要向地址0xA100_0DAC中寫入0x36B0_0C00E。

ARM920T的MMU與Cache

Cache是高性能CPU解決總線訪問速度瓶頸的方法，然而它的使用卻是需要權衡的，因爲緩存本身的動作，如塊拷貝和替換等，也是很消耗CPU時間的。 MMU的重要性勿庸置疑，ARM920T（和ARM720T）集成了MMU是其最大的賣點；有了MMU，高級的操作系統（虛擬地址空間，平面地址，進程保護等）才得以實現。二者都挺複雜，並且在920T中又高度耦合，相互配合操作，所以需要結合起來研究。同時，二者的操作對象都是內存，內存的使用是使用 MMU/Cache的關鍵。另外，MMU和Cache的控制寄存器不佔用地址空間，CP15是操縱MMU/Cache的唯一途徑。

Cache/Write Buffer的功能

Cache通過預測CPU即將要訪問的內存地址（一般都是順序的），預先讀取大塊內存供CPU訪問，來減少後續的內存總線上的讀寫操作，以提高速度。然而，如果程序中長跳轉的次數很多，Cache的命中率就會顯著降低，隨之而來，大量的替換操作發生，於是，過多的內存操作反而降低了程序的性能。

ARM920T內部採用哈佛結構，將內部指令總線和數據總線分開，分別連接到ICache和DCache，再通過AMBA總線接口連接到ASB總線上去訪問內存。Cache由Line組成，Line是Cache進行塊讀取和替換的單位。

Writer Buffer是和DCache相逆過程的一塊硬件，目的也是通過減少memory bus的訪問來提高性能。

MMU的功能

在內存中維護一張或幾張表，就看你怎麼給內存劃分page和section了。通過CP15指定好轉換表的位置，920T的硬件會自動將轉換表的一部分讀到TLB中。CPU每次進行內存讀寫時，發出虛擬地址，參照TLB中的轉換錶轉換到物理地址，並讀取相應entry中的信息，以決定是否可以有權限讀寫和緩存。

mmugen這個工具就是幫你構造這個表的，省的自己寫程序了。

操作MMU，實際上就是如何分配和使用你的內存，並記錄在translationtable裏。

ARM920T中，MMU的每條entry包括Cachable和Buffable位來指定相應的內存是否可以用Cache緩存。此處就是MMU與 Cache的交互作用處。

實際上，MMU和Cache的使用是操作系統設計者根據系統軟硬件配置而考慮的事情。操作系統針對分配給應用程序的地址空間作內存保護和緩存優化。在沒有操作系統的情況下，就需要我們自己來掌控它們了。其中，主要是合理分配內存。

我認爲，以下幾點需要着重考慮：

1) 安全第一！ -- 避免MMU和Cache的副作用。

當你在無OS的裸機上開發程序時，初始化運行環境的代碼很重要，比如：各種模式堆棧指針的初始化；將代碼和RW data 從ROM拷貝到RAM；初始化.bss段（zero initialized）空間等。此時會有大量的內存操作，如果你enable了 Cache，那麼在拷貝完代碼之後，一定要invalidate ICache和flush DCache。否則將會出現緩存中的代碼或數據與內存中的不一致，程序跑飛。

另外，有時候我們需要自己作loader來直接運行ELF文件，情況也是一樣，拷貝完代碼後一定要刷新Cache，以免不測。

還有，對硬件的操作要小心。很多寄存器值都是被硬件改變的，讀寫時，要保證確實訪問到它的地址。首先，在C語言代碼中聲明爲volatile變量，以防止內存讀寫被編譯器優化掉；另外，設置好TLB，使得寄存器映射的地址空間不被緩存。

總之，緩存和內存中代碼的不一致，是一定要避免的。

2) 弄巧成拙！ -- 只對頻繁訪問的地址空間進行Cache優化。

我們很清楚自己的程序中，那裏有大量的運算，哪裏有無數的循環或遞歸，而這正是Cache的用武之地，我們將這些空間進行緩存將大大提高運行速度。但是，很多函數或子程序往往僅僅運行很少幾次，若是對它們也緩存，只會撿了芝麻丟了西瓜，造成不必要的緩存和替換操作，反而增加了系統負擔，降低了整體性能。

3) 斷點哪兒去了？ -- 如何調試“加速”了的代碼？

據我所知，一般，debugger都是通過掃描地址總線，在斷點處暫停CPU。ARM9TDMI中集成的JTAG調試口，也是這樣。

當我們調試使用Cache的代碼時，將會出現問題。比如：CPU訪問某斷點所在地址之前的地址時，發生緩存操作，斷點處代碼被提前讀入Cache，此時地址總線上出現了斷點地址，CPU被debugger暫停，並且斷點之後的指令也被Cache緩存。於是，當你從斷點處step時，程序卻停不了了，因爲地址總線上不再出現斷點之後的下一個地址了。
再舉個例子：
int i,a;
for (i=0; i<100; i++) {
-> a++;
}

當地址總線上第一次出現斷點地址時，CPU暫停；之後，就再也不會停了。因爲，之後CPU會從cache中直接去代碼了。(當然，後來，Cache的代碼有可能會被替換掉，斷點又可到達。) 所幸的是，我用的debugger提供JTAG Monitor，允許斷點跟蹤使用cache 的程序。

全部參考來源於ARM的手冊，建議詳細閱讀1)的PartB及其在2)中的具體實現。
1) DDI0100E_ARM_ARM.pdf (ARM Architecture Reference Manual)
2) DDI0151C_920T_TRM.pdf (ARM920T Technical Reference Manual)

ARM MMU 理解(基於ARM920T)

移動嵌入式遭遇能耗瓶頸，WinCE電源管理應對有技巧

貼片電阻封裝

鉭電容封裝大全及技術參數

UART的CTS與RTS

PROTEL所畫PCB各層的意思

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結