編譯器介紹----百度百科整理

簡介

  高級計

算機語言便於人編寫,閱讀,維護。低階機器語言是計算機能直接解讀、運行的。編譯器將源程序Source program)作爲輸入,翻譯產生使用目標語言(Target language)的等價程序。源代碼一般爲高級語言 (High-level language), 如 PascalCC++C#Java等,而目標語言則是彙編語言或目標機器的目標代碼(Object code),有時也稱作機器代碼(Machine code)。                    

工作原理 


  編譯是從源代碼(通常爲高級語言)到能直接被計算機或虛擬機執行的目標代碼(通常爲低階語言或機器語言)的翻譯過程。然而,也存在從低階語言到高級語言的編譯器,這類編譯器中用來從由高級語言生成的低階語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器,或者生成一種需要進一步處理的的中間代碼的編譯器(又叫級聯)。

  典型的編譯器輸出是由包含入口點的名字和地址, 以及外部調用(到不在這個目標文件中的函數調用)的機器代碼所組成的目標文件。一組目標文件,不必是同一編譯器產生,但使用的編譯器必需採用同樣的輸出格式,可以鏈接在一起並生成可以由用戶直接執行的可執行程序。


編譯器種類


  編譯器可以生成用來在與編譯器本身所在的計算機和操作系統(平臺)相同的環境下運行的目標代碼,這種編譯器又叫做“本地”編譯器。另外,編譯器也可以生成用來在其它平臺上運行的目標代碼,這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬件平臺時非常有用。“源碼到源碼編譯器”是指用一種高級語言作爲輸入,輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作爲輸入,轉換其中的代碼,並用並行代碼註釋對它進行註釋(如OpenMP)或者用語言構造進行註釋(如FORTRAN的DOALL指令)。

預處理器(preprocessor)


  作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端(frontend)


  前端主要負責解析(parse)輸入的源代碼,由語法分析器和語意分析器協同工作。語法分析器負責把源代碼中的‘單詞’(Token)找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式,語句 ,函數等等。 例如“a = b + c;”前端語法分析器看到的是“a, =, b , +, c;”,語意分析器按定義的語法,先把他們組裝成表達式“b + c”,再組裝成“a = b + c”的語句。 前端還負責語義(semantic checking)的檢查,例如檢測參與運算的變量是否是同一類型的,簡單的錯誤處理。最終的結果常常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣後端可以在此基礎上進一步優化、處理。

編譯器後端(backend)

  編譯器後端主要負責分析,優化中間代碼(Intermediate representation)以及生成機器代碼(Code Generation)。

  一般說來所有的編譯器分析,優化,變型都可以分成兩大類: 函數內(intraprocedural)還是函數之間(interprocedural)進行。很明顯,函數間的分析,優化更準確,但需要更長的時間來完成。

編譯器分析(compiler analysis)

  編譯器分析的對象是前端生成並傳遞過來的中間代碼,現代的優化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程序,高層的中間代碼(high level IR)接近輸入的源代碼的格式,與輸入語言相關(language dependent),包含更多的全局性的信息,和源代碼的結構;中層的中間代碼(middle level IR)與輸入語言無關,低層的中間代碼(Low level IR)與機器語言類似。 不同的分析,優化發生在最適合的那一層中間代碼上。
  常見的編譯分析有函數調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針分析(pointer analysis),數據依賴分析(data dependence analysis)等等。
  上述的程序分析結果是編譯器優化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見的優化和變新有:函數內嵌(inlining),無用代碼刪除(Dead code elimination),標準化循環結構(loop normalization),循環體展開(loop unrolling),循環體合併,分裂(loop fusion,loop fission),數組填充(array padding),等等。 優化和變形的目標是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至可以把序列化的代碼(serial code)變成並行運算,多線程的代碼(parallelized,multi-threadedcode)。

  機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合併幾句代碼成一句等等。

代碼分析

  編譯器分析(compiler analysis)的對象是前端生成並傳遞過來的中間代碼,現代的優化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程序,高層的中間代碼(high level IR)接近輸入的源程序的格式,與輸入語言相關(language dependent),包含更多的全局性的信息,和源程序的結構;中層的中間代碼(middle level IR)與輸入語言無關,低層的中間代碼(Low level IR)與機器語言類似。 不同的分析,優化發生在最適合的那一層中間代碼上。
  常見的編譯分析有函數調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針分析(pointer analysis),數據依賴分析(data dependence analysis)等。
  程序分析結果是編譯器優化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見的優化和變形有:函數內嵌(inlining),無用代碼刪除(Dead code elimination),標準化循環結構(loop normalization),循環體展開(loop unrolling),循環體合併,分裂(loop fusion,loop fission),數組填充(array padding),等等。 優化和變形的目的是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至可以把序列化的代碼(serial code)變成並行運算,多線程的代碼(parallelized,multi-threaded code)。

  機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合併幾句代碼成一句等等。

工作方法

       首先編譯器進行語法分析,也就是要把那些字符串分離出來。

  然後進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。
  最後生成的是目標文件,也稱爲obj文件。
  再經過鏈接器的鏈接就可以生成最後的可執行代碼了。
  有些時候需要把多個文件產生的目標文件進行鏈接,產生最後的代碼。這一過程稱爲交叉鏈接。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章