工作原理 編譯是從
原始碼 (通常為
高級語言 )到能直接被計算機或
虛擬機 執行的
目標代碼 (通常為低級語言或
機器語言 )的翻譯過程。然而,也存在從低級語言到高級語言的編譯器,這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器,或者生成一種需要進一步處理的的
中間代碼 的編譯器(又叫級聯)。
編譯器 典型的編譯器輸出是由包含
入口點 的名字和地址, 以及外部調用(到不在這個
目標檔案 中的
函式調用 )的機器代碼所組成的目標檔案。一組
目標檔案 ,不必是同一編譯器產生,但使用的編譯器必需採用同樣的輸出格式,可以連結在一起並生成可以由用戶直接執行的EXE,
所以我們電腦上的檔案都是經過編譯後的檔案。
種類 編譯器可以生成用來在與編譯器本身所在的計算機和
作業系統 (平台)相同的環境下運行的
目標代碼 ,這種編譯器又叫做“本地”編譯器。另外,編譯器也可以生成用來在其它平台上運行的
目標代碼 ,這種編譯器又叫做
交叉編譯器 。
交叉編譯器 在生成新的硬體平台時非常有用。“源碼到源碼編譯器”是指用一種高級語言作為輸入,輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入,轉換其中的代碼,並用並行代碼注釋對它進行注釋(如OpenMP)或者用語言構造進行注釋(如FORTRAN的DOALL指令)。
編譯器 處理器 前端 前端主要負責解析(parse)輸入的
原始碼 ,由
語法分析器 和語意分析器
協同工作 。
語法分析器 負責把
原始碼 中的‘單詞’(Token)找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的
表達式 ,語句 ,函式等等。 例如“a = b + c;”前端
語法分析器 看到的是“a, =, b , +, c;”,語意分析器按定義的語法,先把他們組裝成
表達式 “b + c”,再組裝成“a = b + c”的語句。 前端還負責語義(semantic checking)的檢查,例如檢測參與運算的變數是否是同一類型的,簡單的錯誤處理。最終的結果常常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣後端可以在此基礎上進一步最佳化,處理。
title 後端 編譯器後端主要負責分析,最佳化
中間代碼 (Intermediate representation)以及生成機器代碼(Code Generation)。
一般說來所有的
編譯器分析 ,最佳化,變型都可以分成兩大類: 函式內(intraprocedural)還是函式之間(interprocedural)進行。很明顯,函式間的分析,最佳化更準確,但需要更長的時間來完成。
代碼分析 編譯器分析(compiler analysis)的對象是前端生成並傳遞過來的中間代碼,現代的最佳化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程式,高層的中間代碼(high level IR)接近輸入的
源程式 的格式,與輸入語言相關(language dependent),包含更多的全局性的信息,和源程式的結構;中層的中間代碼(middle level IR)與輸入語言無關,低層的中間代碼(Low level IR)與機器語言類似。 不同的分析,最佳化發生在最適合的那一層中間代碼上。
編譯器 常見的編譯分析有函式調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的 變數定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變數別名分析(alias analysis),
指針 分析(pointer analysis),數據依賴分析(data dependence analysis)等。
程式分析結果是編譯器最佳化(compiler optimization)和程式變形(compiler transformation)的前提條件。常見的最佳化和變形有:函式內嵌(inlining),無用代碼刪除(Dead code elimination),標準化循環結構(loop normalization),循環體展開(loop unrolling),循環體合併,分裂(loop fusion,loop fission),
數組 填充(array padding),等等。 最佳化和變形的目的是減少代碼的長度,提高記憶體(memory),快取(cache)的
使用率 ,減少讀寫磁碟,訪問
網路數據 的頻率。更高級的最佳化甚至可以把序列化的代碼(serial code)變成並行運算,多執行緒的代碼(parallelized,
multi-threaded code)。
編譯器 機器代碼的生成是最佳化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,最佳化,變形的工作。例如如何分配
暫存器 (register allocatioin),如何選擇合適的機器指令(instruction selection),如何合併幾句代碼成一句等等。
工作方法 首先編譯器進行
語法分析 ,也就是要把那些字元串分離出來。
最後生成的是目標檔案,也稱為obj檔案。
有些時候需要把多個檔案產生的
目標檔案 進行連結,產生最後的代碼。這一過程稱為交叉連結。
編譯器最佳化 應用程式之所以複雜, 是由於它們具有處理多種問題以及相關數據集的能力。實際上, 一個複雜的應用程式就象許多不同功能的應用程式“ 貼上” 在一起。源檔案中大部分複雜性來自於處理初始化和問題設定代碼。這些檔案雖然通常占源檔案的很大一部分, 具有很大難度, 但基本上不花費C PU 執行周期。
儘管存在上述情況, 大多數Makefile檔案只有一套編譯器選項來編譯項目中所有的檔案。因此, 標準的最佳化方法只是簡單地提升最佳化選項的強度, 一般從O 2 到O 3。這樣一來, 就需要投人大量 精力來調試, 以確定哪些檔案不能被最佳化, 並為這些檔案建立特殊的make規則。
一個更簡單但更有效的方法是通過一個性能分析器, 來運行最初的代碼, 為那些占用了85 一95 % CPU 的源檔案生成一個列表。通常情況下, 這些檔案大約只占所有檔案的1%。如果開發人員立刻為每一個列表中的檔案建立其各自的規則, 則會處於更靈活有效的位置。這樣一來改變最佳化只會引起一小部分檔案被重新編譯。進而,由於時間不會浪費在最佳化不費時的函式上, 重編譯全部檔案將會大大地加快。
進行對比 許多人將高階程式語言分為兩類:
編譯型語言 和直譯型語言。然而,實際上,這些語言中的大多數既可用編譯型實現也可用直譯型實現,分類實際上反映的是那種語言常見的實現方式。(但是,某些直譯型語言,很難用編譯型實現。比如那些允許 線上代碼更改 的直譯型語言。)
歷史 20世紀50年代,IBM的John Backus帶領一個研究小組對
FORTRAN語言 及其編譯器進行開發。但由於當時人們對編譯理論了解不多,開發工作變得既複雜又艱苦。與此同時,Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單,甚至還帶有了一些自動化。Chomsky的研究導致了根據語言
文法 的難易程度以及識別它們所需要的算法來對語言分類。正如Chomsky架構(Chomsky Hierarchy),它包括了
文法 的四個層次:0型文法、1型文法、2型文法和3型文法,且其中的每一個都是其前者的特殊情況。2型文法(或
上下文無關文法 )被證明是
程式設計語言 中最有用的,而且今天它已代表著程式設計語言結構的標準方式。分析問題(parsing problem,用於
上下文無關文法 識別的有效算法)的研究是在60年代和70年代,它相當完善的解決了這個問題。它已是
編譯原理 中的一個標準部分。
編譯器 有限狀態自動機 (Finite Automation)和
正則表達式 (Regular Expression)同
上下文無關文法 緊密相關,它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始,並且引出了表示
程式設計語言 的單詞的符號方式。
人們接著又深化了生成有效
目標代碼 的方法,這就是最初的編譯器,它們被一直使用至今。人們通常將其稱為最佳化技術(Optimization Technique),但因其從未真正地得到過被最佳化了的
目標代碼 而僅僅改進了它的有效性,因此實際上應稱作代碼改進技術(Code Improvement Technique)。
當分析問題變得好懂起來時,人們就在開發程式上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程式最初被稱為編譯器的編譯器(Compiler-compiler),但更確切地應稱為分析程式生成器(Parser Generator),這是因為它們僅僅能夠自動處理編譯的一部分。這些程式中最著名的是Yacc(Yet Another Compiler-compiler),它是由Steve Johnson在1975年為Unix系統編寫的。類似的,
有限狀態自動機 的研究也發展了一種稱為掃描程式生成器(Scanner Generator)的工具,Lex(與Yacc同時,由Mike Lesk為Unix系統開發)是這其中的佼佼者。
在20世紀70年代後期和80年代早期,大量的項目都貫注於編譯器其它部分的生成自動化,這其中就包括了
代碼生成 。這些嘗試並未取得多少成功,這大概是因為操作太複雜而人們又對其不甚了解。
編譯器設計最近的發展包括:首先,編譯器包括了更加複雜算法的
應用程式 它用於推斷或簡化程式中的信息;這又與更為複雜的
程式設計語言 的發展結合在一起。其中典型的有用於函式語言編譯的Hindley-Milner類型檢查的統一算法。其次,編譯器已越來越成為基於視窗的互動開發環境(Interactive Development Environment,IDE)的一部分,它包括了編輯器、
連線程式 、
調試程式 以及項目管理程式。這樣的IDE標準並沒有多少,但是對標準的視窗環境進行開發已成為方向。另一方面,儘管在
編譯原理 領域進行了大量的研究,但是基本的編譯器設計原理在近20年中都沒有多大的改變,它正迅速地成為
計算機科學 課程中的中心環節。
在20世紀90年代,作為GNU項目或其它
開放原始碼 項目標一部分,許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的電腦程式語言。它們中的一些項目被認為是高質量的,而且對現代編譯理論感興趣的人可以很容易的得到它們的免費
原始碼 。
大約在1999年,SGI公布了他們的一個工業化的並行化最佳化編譯器Pro64的
原始碼 ,後被全世界多個編譯器研究小組用來做研究平台,並命名為
Open64 。
Open64 的設計結構好,分析最佳化全面,是編譯器高級研究的理想平台。
編譯器相關專業術語:
1.
compiler編譯器;編譯程式
2.
on-line compiler 連線編譯器
3.
precompiler 預編譯器
4.
serial compiler 串列編譯器
5.
system-specific compiler 特殊系統編譯器
6.
Information Presentation Facility Compiler 信息展示設施編譯器
7.
Compiler Monitor System 編譯器監視系統