交叉編譯器:簡介,原理,分類,代碼分析,工作方法,語言對比,發展歷史,交叉編譯,舉

交叉編譯器簡介在一種計算機環境中運行的編譯程式，能編譯出在另外一種環境下運行的代碼

基本介紹

中文名：交叉編譯器
分類1：預處理器
分類2：編譯器前端
分類3：編譯器後端

簡介,原理,分類,代碼分析,工作方法,語言對比,發展歷史,交叉編譯,舉例,

簡介

高級計算機語言便於人編寫，閱讀，維護。低級機器語言是計算機能直接解讀、運行的。編譯器將源程式（Source program）作為輸入，翻譯產生使用目標語言（Target language）的等價程式。原始碼一般為高級語言 (High-level language)，如 Pascal、C、C++、C#、Java等，而目標語言則是彙編語言或目標機器的目標代碼（Object code），有時也稱作機器代碼（Machine code）。

原理

編譯是從原始碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低階語言或機器語言）的翻譯過程。然而，也存在從低階語言到高階語言的編譯器，這類編譯器中用來從由高階語言生成的低階語言代碼重新生成高階語言代碼的又被叫做反編譯器。也有從一種高階語言生成另一種高階語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址，以及外部調用（到不在這個目標檔案中的函式調用）的機器代碼所組成的目標檔案。一組目標檔案，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以連結在一起並生成可以由用戶直接執行的可執行程式。

分類

編譯器可以生成用來在與編譯器本身所在的計算機和作業系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做“本地”編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。“源碼到源碼編譯器”是指用一種高階語言作為輸入，輸出也是高階語言的編譯器。例如: 自動並行化編譯器經常採用一種高階語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）

作用是通過代入預定義等程式段將源程式補充完整。

編譯器前端（frontend）

前端主要負責解析（parse）輸入的原始碼，由語法分析器和語意分析器協同工作。語法分析器負責把原始碼中的‘單詞’（Token）找出來，語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函式等等。例如“a = b + c;”前端語法分析器看到的是“a， =， b ， +， c;”，語意分析器按定義的語法，先把他們組裝成表達式“b + c”，再組裝成“a = b + c”的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步最佳化和處理。

編譯器後端（backend）

編譯器後端主要負責分析，最佳化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，最佳化，變型都可以分成兩大類：函式內（intraprocedural）還是函式之間（interprocedural）進行。很明顯，函式間的分析，最佳化更準確，但需要更長的時間來完成。

代碼分析

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的最佳化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程式，高層的中間代碼（high levelIR）接近輸入的源程式的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程式的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，最佳化發生在最適合的那一層中間代碼上。

常見的編譯分析有函式調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependenceanalysis）等。

程式分析結果是編譯器最佳化（compileroptimization）和程式變形（compiler transformation）的前提條件。常見的最佳化和變形有：函式內嵌（inlining），無用代碼刪除（Dead code elimination），標準化循環結構（loop normalization），循環體展開（loop unrolling），循環體合併，分裂（loop fusion，loop fission），數組填充（array padding），等等。最佳化和變形的目的是減少代碼的長度，提高記憶體（memory），快取（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的最佳化甚至可以把序列化的代碼（serial code）變成並行運算，多執行緒的代碼（parallelized，multi-threaded code）。

機器代碼的生成是最佳化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，最佳化，變形的工作。例如如何分配暫存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合併幾句代碼成一句等等。

工作方法

首先編譯器進行語法分析，也就是要把那些字元串分離出來。

然後進行語義分析，就是把各個由語法分析分析出的語法單元的意義搞清楚。

最後生成的是目標檔案，也稱為obj檔案。

再經過連結器的連結就可以生成最後的可執行代碼了。

有些時候需要把多個檔案產生的目標檔案進行連結，產生最後的代碼。這一過程稱為交叉連結。

語言對比

許多人將高階程式語言分為兩類:編譯型語言和直譯型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用直譯型實現，分類實際上反映的是那種語言常見的實現方式。（但是，某些直譯型語言，很難用編譯型實現。比如那些允許線上代碼更改的直譯型語言。）

發展歷史

20世紀50年代，IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但由於當時人們對編譯理論了解不多，開發工作變得既複雜又艱苦。與此同時，Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的算法來對語言分類。正如所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每一個都是其前者的特殊情況。2型文法（或上下文無關文法）被證明是程式設計語言中最有用的，而且今天它已代表著程式設計語言結構的標準方式。分析問題（parsing problem，用於上下文無關文法識別的有效算法）的研究是在60年代和70年代，它相當完善的解決了這個問題。它已是編譯原理中的一個標準部分。

有限狀態自動機（Finite Automation）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，並且引出了表示程式設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們通常將其稱為最佳化技術（Optimization Technique），但因其從未真正地得到過被最佳化了的目標代碼而僅僅改進了它的有效性，因此實際上應稱作代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程式上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程式最初被稱為編譯器的編譯器（Compiler-compiler），但更確切地應稱為分析程式生成器（Parser Generator），這是因為它們僅僅能夠自動處理編譯的一部分。這些程式中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年為Unix系統編寫的。類似的，有限狀態自動機的研究也發展了一種稱為掃描程式生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk為Unix系統開發）是這其中的佼佼者。

在20世紀70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是因為操作太複雜而人們又對其不甚了解。

編譯器設計最近的發展包括：首先，編譯器包括了更加複雜算法的應用程式它用於推斷或簡化程式中的信息；這又與更為複雜的程式設計語言的發展結合在一起。其中典型的有用於函式語言編譯的Hindley-Milner類型檢查的統一算法。其次，編譯器已越來越成為基於視窗的互動開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、連線程式、調試程式以及項目管理程式。這樣的IDE標準並沒有多少，但是對標準的視窗環境進行開發已成為方向。另一方面，儘管在編譯原理領域進行了大量的研究，但是基本的編譯器設計原理在近20年中都沒有多大的改變，它正迅速地成為計算機科學課程中的中心環節。

在20世紀90年代，作為GNU項目或其它開放原始碼項目標一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的電腦程式語言。它們中的一些項目被認為是高質量的，而且對現代編譯理論感興趣的人可以很容易的得到它們的免費原始碼。

大約在1999年，SGI公布了他們的一個工業化的並行化最佳化編譯器Pro64的原始碼，後被全世界多個編譯器研究小組用來做研究平台，並命名為Open64。Open64的設計結構好，分析最佳化全面，是編譯器高級研究的理想平台。

交叉編譯

在一種計算機環境中運行的編譯程式，能編譯出在另外一種環境下運行的代碼，我們就稱這種編譯器支持交叉編譯。這個編譯過程就叫交叉編譯。簡單地說，就是在一個平台上生成另一個平台上的可執行代碼。這裡需要注意的是所謂平台，實際上包含兩個概念：體系結構（Architecture）、作業系統（Operating System）。同一個體系結構可以運行不同的作業系統；同樣，同一個作業系統也可以在不同的體系結構上運行。舉例來說，我們常說的x86 Linux平台實際上是Intel x86體系結構和Linux for x86作業系統的統稱；而x86 WinNT平台實際上是Intel x86體系結構和Windows NT for x86作業系統的簡稱。

有時是因為目的平台上不允許或不能夠安裝我們所需要的編譯器，而我們又需要這個編譯器的某些特徵；有時是因為目的平台上的資源貧乏，無法運行我們所需要編譯器；有時又是因為目的平台還沒有建立，連作業系統都沒有，根本談不上運行什麼編譯器。

交叉編譯這個概念的出現和流行是和嵌入式系統的廣泛發展同步的。我們常用的計算機軟體，都需要通過編譯的方式，把使用高級計算機語言編寫的代碼（比如C代碼）編譯（compile）成計算機可以識別和執行的二進制代碼。比如，我們在Windows平台上，可使用Visual C++開發環境，編寫程式並編譯成可執行程式。這種方式下，我們使用PC平台上的Windows工具開發針對Windows本身的可執行程式，這種編譯過程稱為native compilation，中文可理解為本機編譯。然而，在進行嵌入式系統的開發時，運行程式的目標平台通常具有有限的存儲空間和運算能力，比如常見的 ARM 平台，其一般的靜態存儲空間大概是16到32MB，而CPU的主頻大概在100MHz到500MHz之間。這種情況下，在ARM平台上進行本機編譯就不太可能了，這是因為一般的編譯工具鏈（compilation tool chain）需要很大的存儲空間，並需要很強的CPU運算能力。為了解決這個問題，交叉編譯工具就應運而生了。通過交叉編譯工具，我們就可以在CPU能力很強、存儲空間足夠的主機平台上（比如PC上）編譯出針對其他平台的可執行程式。

要進行交叉編譯，我們需要在主機平台上安裝對應的交叉編譯工具鏈（cross compilation tool chain），然後用這個交叉編譯工具鏈編譯我們的原始碼，最終生成可在目標平台上運行的代碼。

舉例

交叉編譯

1、在Windows PC上，利用ADS（ARM開發環境），使用armcc編譯器，則可編譯出針對ARM CPU的可執行代碼。

2、在Linux PC上，利用arm-linux-gcc編譯器，可編譯出針對Linux ARM平台的可執行代碼。

3、在Windows PC上，利用cygwin環境，運行arm-elf-gcc編譯器，可編譯出針對ARM CPU的可執行代碼。

4、在Windows系統上，利用Keil Uvison工具，開發出運行在89C51單片機上的程式。

5、在Windows系統上，利用CodeWarrior IDE工具，開發出運行在Freescale XS128單片機上的程式。

交叉編譯器