目標檔案
統一格式的目標檔案為混合語言編程帶來了極大的方便。
當然,並不是只有這一種對象檔案格式。常用格式的還有OMF-對象模型檔案(Object Module File)以及ELF-可執行及連線檔案格式(Executable and Linking Format)。OMF是一大群IT巨頭在n年制定的一種格式,在Windows平台上很常見。大家喜歡的Borland公司使用的
目標檔案就是這種格式。MS和Intel之前用的也是這種格式。而投異側,用COFF格式了。ELF格式在非Windows平台上使用得比較多,在Windows平台基本上沒見過。做為程式設計師,很有必要認識一下這些你經常打交道的傢伙!不過這次讓我介紹COFF先!
結構
讓我們先來看一下COFF檔案的整體結構,看看它到底長得什麼樣!
File Header
Optional Header
Section Header 1
......
Section Header n
Section Data
Relocation Directives
Line Numbers
Symbol Table
String Table
如上圖:
COFF檔案一共有8種數據,自上而下分別為:
2. 可選頭(Optional Header)
3. 段落頭(Section Header)
4. 段落數據(Section Data)
5.
重定位表(Relocation Directives)
6. 行號表(Line Numbers)
其中,除了段落頭可以有多個節(因為可以有多個段落)以外,其它的所有類型的節最多只能有一個。
檔案頭:顧名思義,它就是COFF檔案的頭,它用來保存COFF檔案的基本信息,如檔案標識,各個表的位置等等。
可選頭:再顧名思義,它也是一個頭,還是可選的,而且可有可無。在
目標檔案中,基本上都沒有這個頭;但在其它的檔案中(如:
執行檔)這個段用來保存在檔案頭中沒有描述到的信息。
段落頭:又顧……(不顧了,再顧有人要打我了J),這個頭(怎么這么多的頭啊?!)是用來描述段落信息的,每個段落都有一個段落頭來描述。段落的數目在檔案頭中會指出。
段落數據:這通常是COFF檔案中最大的
數據段,每個段落真正的數據就保存在這個位置。至於怎么區分這些數據是哪個段落的,不要問我,去問段落頭。
重定位表:這個表通常只存在於
目標檔案中,它用來描述COFF檔案中符號的重定位信息。至於為什麼要重定位,請回家看看你的作業系統的書籍。
符號表:這個表用來保存COFF檔案中所用到的所有符號的信息,連線多個COFF檔案時,這個表幫助我們重定位符號。
調試程式時也要用到它。
字元串表:不用我說,大家也知道它用來保存字元串的。可是字元串保存給誰看呢?不知道了吧!?問我啊!J符號表是以記錄的形式來描述符號信息的,但它只為符號名稱留置了8個字元的空間,早期的小程式還將就能行,現代程式中,一個符號名動不動就數十個字元,8個字元怎么能夠?沒辦法,只好把這些名稱存在字元串表中。而
符號表中只記錄這些字元串的位置。
檔案的結構大體上就是這樣了。長得是醜了點,不過還算它的設計者有點遠見。可擴充性設計得不錯,以致於沿用至今。了解了檔案的整體結構,讓我們來逐個段落分析它。
檔案頭
檔案頭,自然是從檔案的0偏移處開始,它的結構很簡單。用C的結構描述如下:
typedef struct {
unsigned short usMagic; //
魔法數字unsigned short usNumSec; // 段落(Section)數
unsigned long ulTime; //
時間戳unsigned long ulSymbolOffset; // 符號表偏移
unsigned long ulNumSymbol; // 符號數
unsigned short usOptHdrSZ; // 可選頭長度
unsigned short usFlags; // 檔案標記
} FILEHDR;
結構中usMagic成員是一個
魔法數字(Magic Number),在I386平台上的COFF檔案中它的值為0x014c。如果COFF
檔案頭中魔法數字不為0x014c,那就不用看了,這不是一個I386平台的COFF檔案。其實這就是一個平台標識。
第二個成員usNumSec是一個無符號短整型,它用來描述段落的數量。段落頭(Section Header)的數目就是它。
ulTime成員是一個
時間戳,它用來描述COFF檔案的建立時間。當COFF檔案為一個
執行檔時,這個時間戳經常用來當做一個加密用的比對標識。
ulSymbolOffset是符號表在檔案中的
偏移量,這是一個絕對偏移量,要從檔案頭開始計數。在COFF檔案的其它節中,也存在這種偏移量,它們都是絕對偏移量。
ulNumSymbol成員給出了
符號表中符號記錄的數量。
usOptHdrSZ是可選頭的長度,通常它為0。而可選頭的類型也是從這個長度得知的,針對不同的長度,我們就要選擇不同的處理方式。
usFlag是COFF檔案的屬性標記,它標識了COFF檔案的類型,COFF檔案中所保存的數據等等信息。
其值如下:
值 名稱 說明
0x0001 F_RELFLG 無重定位信息標記。這個標記指出COFF檔案中沒有重定位信息。通常在
目標檔案中這個標記們為0,在
執行檔中為1。
0x0002 F_EXEC 可執行標記。這個標記指出 COFF 檔案中所有符號已經解析, COFF 檔案應該被認為是執行檔。
0x0004 F_LNNO 檔案中所有
行號已經被去掉。
0x0008 F_LSYMS 檔案中的符號信息已經被去掉。
註:Little-Endian,是指小
位元組序或低位元組序。它是指數據的排列方式。比如:十六進制的0x1234以Little-Endian方式在記憶體中的順序為0x34 0x12。與之相反的是Big-Endian,這種方式下,在記憶體中的順序是0x12 0x34。
這個表的內容並不全面,但在
目標檔案中,常用的也就只有這些。其它的標記我將在以後介紹PE格式時給出。
可選頭
可選頭接在
檔案頭的後面,也就是從COFF檔案的0x0014偏移處開始。長度可以為0。不同長度的可選頭,其結構也不同。標準的可選頭長度為24或28位元組,通常是28啦。這裡我就只介紹長度為28的可選頭。(因為這種頭的長度是自定義的,不同的人定義的結果就不一樣,我只能選一種最常用的頭來介紹,別的我也不知道)
這種頭的結構如下:
typedef struct {
unsigned short usMagic; // 魔法數字
unsigned short usVersion; // 版本標識
unsigned long ulTextSize; // 正文(text)段大小
unsigned long ulInitDataSZ; // 已初始化
數據段大小
unsigned long ulUninitDataSZ; // 未初始化數據段大小
unsigned long ulEntry; //
入口點unsigned long ulTextBase; // 正文段基址
unsigned long ulDataBase; //數據段基址(在PE32中才有)
} OPTHDR;
第一個成員usMagic還是
魔法數字,不過這回它的值應該為0x010b或0x0107。當值為0x010b時,說明COFF檔案是一個一般的執行檔;當值為,0x0107時,COFF則為一個ROM
鏡像檔案。
usVersion是COFF檔案的版本,ulTextSize是這個可執行COFF的正文段長度,ulInitDataSZ和ulUninitDataSZ分別為已初始化
數據段和未初始化數據段的長度。
ulEntry是程式的
入口點,也就是COFF載入記憶體時正文段的位置(EIP暫存器的值),當COFF檔案是一個動態庫時,入口點也就是動態庫的入口函式。
ulDataBase是數據段基址。
其實在這些成員中,只要注意usMagic和ulEntry就可以了。
段落頭
段落頭緊跟在可選頭的後面(如果可選頭的長度為0,那么它就是緊跟在
檔案頭後)。它的長度為40個位元組,如下:
typedef struct {
char cName[8]; // 段名
unsigned long ulVSize; // 虛擬大小
unsigned long ulVAddr; //
虛擬地址unsigned long ulSize; // 段長度
unsigned long ulSecOffset; // 段數據偏移
unsigned long ulRelOffset; // 段重定位表偏移
unsigned long ulLNOffset; // 行號表偏移
unsigned short usNumRel; // 重定位表長度
unsigned short usNumLN; // 行號表長度
unsigned long ulFlags; // 段標識
} SECHDR;
這個頭可是個重要的頭頭,我們要用到的最終信息就由它來描述。一個COFF檔案可以不要其它的節,但
檔案頭和段落頭這兩節是必不可少的。
cName用來保存段名,常用的段名有.text,.data,.comment,.bss等。.text段是正文段,通常也就是
代碼段;.data是
數據段,在這個數據段中所保存的數據是初始化過的數據;.bss段也可以用來保存數據,不過這裡的數據是未初始化的,這個段也是一個空段;.comment段,看名字也知道,它是注釋段,用來保存一些編譯信息,算是對COFF檔案的注釋。
ulVSize是段數據載入記憶體時的大小。只在
執行檔中有效,在
目標檔案中總為0。如果它的長度大於段的實際長度,則多的部分將用0來填充。
ulVAddr是段數據載入或連線時的虛擬地址。對於執行檔來說,這個地址是相對於它的
地址空間而言。當執行檔被載入記憶體時,這個地址就是段中數據的第一個位元組的位置。而對於目標檔案而言,這只是
重定位時,段數據當前位置的一個
偏移量。為了計算方便,便定位的計算簡化,它通常設為0。
ulSize這才是段中數據的實際長度,也就是段數據的長度,在讀取段數據時就由它來確定要讀多少位元組。
ulSecOffset是段數據在COFF檔案中的偏移量。
ulRelOffset是該段的重定位信息的偏移量。它指向了重定位表的一個記錄。
ulLNOffset是該段的行號表的偏移量。它指向的是行號表中的一個記錄。
usNumRel是重定位信息的記錄數。從ulRelOffset指向的記錄開始,到第ulNumRel個記錄為止,都是該段的重定位信息。
usNumLN和usNumRel相似。不過它是行號信息的記錄數。
ulFlags是該段的屬性標識。其值如下表:
值 名稱 說明
0x0020 STYP_TEXT 正文段標識,說明該段是代碼。
0x0040 STYP_DATA
數據段標識,有些標識的段將用來保存已初始化數據。
0x0080 STYP_BSS 有這個標識段也是用來保存數據,不過這裡的數據是未初始化數據。
注意,在
BSS段中,ulVSize、ulVAddr、ulSize、ulSecOffset、ulRelOffset、ulLNOffset、usNumRel、usNumLN的值都為0。(上表只是部分值,其它值在PE格式中介紹,後同)
段數據
“人”如其名,這裡是保存各個段的數據的位置。不同類型的段,數據的內容、結構也不盡相同。但在
目標檔案中,這些數據都是原始數據(Raw Data)。不存在什麼特別的格式。
這個表所保存的是各個段的重定位信息。這是一張很大的表,因為所有段的重定位信息都在這個表里。各個段落頭記錄了自己的重定位信息的偏移和數量。要用到重定位信息時就到這個表里來讀。當然,你也可以把整個重定位表看成多個重定位表,每個段落都有一個自己的重定位表。這個表只在目標檔案中有,
執行檔中是不存在這個表的。
既然有表,那么就會有記錄。重定位表中的每一條記錄就是一條重定位信息。這個記錄的結構很簡單,如下:
typedef struct {
unsigned long ulAddr; // 定位偏移
unsigned long ulSymbol; // 符號
unsigned short usType; // 定位類型
} RELOC;
有夠簡單吧,一共只三個成員!ulAddr是要定位的內容在段內偏移。比如:一個正文段,起始位置為0x010,ulAddr的值為0x05,那你的定位信息就要寫在0x15處。而且信息的長度要看你的代碼的類型,32位的代碼要寫4個位元組,16位的就只要字2個位元組。
ulSymbol是符號索引,它指向
符號表中的一個記錄。注意,這裡是索引,不是偏移!它只是符號表中的一個記錄的
記錄號。這個成員指明了重定位信息所對映的符號。
usType是重定位類型的標識。32位代碼中,通常只用兩種定位方式。一是絕對定位,二是相對定位。其代碼如下:
值 名稱 說明
6 RELOC_ADDR32 32位絕對定位。
20 RELOC_REL32 32位相對定位。
對於不同的處理器,這些值也不盡相同。這裡給出的是i386平台上最常用的兩個種定位方式的標識。
其定位方式如下:
絕對定位
在絕對定位方式下,你要給出符號的
絕對地址(注意,有時候這裡可能不是地址,而是值,對於
常量來說,你不用給出它的地值,只用給出它的值)。當然,這個地址也不是現成的,你要用符號的
相對地址+它所在段的相對地址來得到它的絕對地址。
公式:符號絕對地址=段偏移+符號偏移
這些
偏移量你要分別從段落頭和符號表中得到。當段落要重定位時,當然還要先重定位段落,才能定位其中的符號。
相對定位
相對定位要複雜一些。它所要的地址信息是相對於當前位置的偏移,這個當前位置就是ulAddr所指向的這個偏移的
絕對地址後四個位元組(32位代碼是四個位元組,16位是兩個位元組)的位置。也就是用定位偏移+當前段偏移+
機器字長÷8
公式:當前地址=定位偏移+當前段偏移+機器字長÷8
有了當前地址,
相對地址就好計算了。只要用符號的絕對地址減去當前地址就可以了。
公式:相對地址=符號絕對地址-當前地址
計算好了地址,把它寫到ulAddr所指向的位置,就一切OK!你已經完成了
重定位的工作了。
行號表
行號表在調試時很有用。它把可執行的
二進制代碼與
原始碼的行號之間建立了對映關係。這樣,當程式執行不正確時(其實正確的也可以J),我們就可以根據當前執行代碼的位置得知出錯原始碼的行號,再加以修改。如果沒有它的話,鬼才知道是哪一行出了毛病!
它的格式也很簡單。只有兩個成員,如下:
typedef struct {
unsigned long ulAddrORSymbol; // 代碼地址或符號索引
unsigned short usLineNo; // 行號
} LINENO;
讓我們先看第二個成員,usLineNo。這是一個從1開始計數的計數器,它代表
原始碼的行號。第一個成員ulAddrORSymbol在
行號大於0時,代表原始碼的地址;而當行號為0時,它就成了行號所對映的符號在
符號表中的索引。下面讓我們來看看符號表吧!
符號表
符號表是對象檔案中用來保存符號信息的一張表,也是COFF檔案中最為複雜的一張表。所有段落使用到的符號都在這個表里。它也是由很多條記錄組成,每條記錄都以如下結構保存:
typedef struct {
union {
char cName[8]; // 符號名稱
struct {
unsigned long ulZero; //
字元串表標識
unsigned long ulOffset; // 字元串偏移
} e;
} e;
unsigned long ulValue; // 符號值
short iSection; // 符號所在段
unsigned short usType; // 符號類型
unsigned char usClass; // 符號存儲類型
unsigned char usNumAux; // 符號附加記錄數
} SYMENT;
cName符號名稱,和前面所有的名稱一樣,它也是8個
位元組,但不同的是它在一個
聯合體中。和它占相同的存儲空間的還有ulZero和ulOffset這兩個成員。如果符號的名稱只有8個字元,那很好,可以直接放到這個cName中;可是,如果名稱的長度大於8個位元組,這裡就放不下了,只好放到
字元串表中。這時候,ulZero的值就會為0,而在ulOffset中會給出我們所用的符號的名稱在字元串表中的偏移。
一個符號有了名稱不夠,它還要有值!ulValue就是這個符號所代表的值。
iSection成員指出了這個符號所在的段落。如果它的值為0,那么這個符號就是一個外部符號,要從其它的COFF檔案中解析(連線多個目標檔案就是要解析這種符號)。當它的值為-1時,說明這個符號的值是一個
常量,不是它在段落中的偏移。而當它的值為-2時,這個符號只是一個調試符號,只有在調試時才會用到它。當它大於0時,才是符號所在段的索引值。
usType是符號的類型標識。它用來說明這個符號的類型,是函式?
整型?還是其它什麼。這個標識是兩個位元組。
低
位元組的低四位是基本標識,它指出了符號的基本類型,如整型,字元,結構,聯合等。高四位指出了符號的高級類型,如
指針(0001b),函式(0010b),
數組(0011b),無類型(0000b)等。
編譯器,通常不使用基本類型,只使用高級類型。所以,符號的基本類型通常被設為0。
高位元組通常未用。
usClass是符號的存儲類型標識。它指明了符號的存儲方式。
其值與意義見下表:
值 名稱 說明
NULL 0 無存儲類型。
AUTOMATIC 1 自動類型。通常是在棧中分配的變數。
EXTERNAL 2 外部符號。當為外部符號時,iSection的值應該為0,如果不為0,則ulValue為符號在段中的偏移。
STATIC 3 靜態類型。ulValue為符號在段中的偏移。如果偏移為0,那么這個符號代表段名。
MEMBER_OF_STRUCT 8 結構成員。ulValue值為該符號在結構中的順序。
STRUCT_TAG 10 結構標識符。
MEMBER_OF_UNION 11 聯合成員。ulValue值為該符號在聯合中的順序。
UNION_TAG 12 聯合標識符。
TYPE_DEFINITION 13 類型定義。
FUNCTION 101 函式名。
FILE 102 檔案名稱。
最後一個成員usNumAux是附加記錄的數量。附加記錄是用來描述符號的一些附加信息,為了便於保存,這些附加記錄通常選擇成為一條符號信息記錄的整數倍(多數為1)。所以,如果這個成員的值為1,那么就表示在當前符號信息記錄後附加了一條記錄,用來保存附加信息。
附加信息的結構是與符號的類型以及存儲類型相關的。不同的類型的符號,其附加信息(如果有的話)的結構也不同。如果你不在意這些內容,也可以把它們乎略。
當段的類型為FILE時,附加信息就是一個字元串,它是目標檔案對應源檔案的名稱。其它類型在介紹PE時再進行詳細討論。
字元串表
不用多說,瞎子也能看出這個表是用來保存字元串的。它緊接在
符號表後。至於為什麼要保存字元串,前面已經說過了。這裡就不再多說了,只說說字元串的保存格式。
0 4
字元串表長度 字元串1\0
.... 字元串n\0
字元串表的前四個
位元組是字元串表的長度,以位元組為單位。其後就是以0結尾的字元串(C風格字元串)。要注意的是,字元串表的長度不僅僅是字元串的長度(這個長度要包括每個字元串後的‘\0’)的總合,它還包括這個長度域的四個位元組。符號表中ulOffset成員所指出的偏移就是從字元串表起始處的偏移。比如:指向第一個字元串的符號,ulOffset的值總為4。
下面給出的代碼,是從
字元串表中讀取字元串的典型C代碼。
int iStrlen,iCur=4; // iStrLen是字元串表的長度,iCur是當前字元串偏移
char *str; // 字元串表
read(fn, &iStrlen, 4); // 得到字元串表長度
str = (char *)malloc(iStrlen); // 為字元串表分配空間
while (iCur<iStrlen ) // 讀字元串表,直到全部讀入記憶體
iCur+=read(fn, str+iCur, iStrlen- iCur);
iCur=4; // 把當前字元串偏移指向第一個字元串
while (iCur<iStrlen ) { // 顯示每一個字元串
printf("String offset 0x%04X : %s\n", iCur, str + iCur);
iCur+=(strlen(str+iCur)+1); // 計算偏移時不要忘了計算‘\0’字元所占的1個
位元組!
}
free(str); // 釋放字元串表空間
直到這裡,整個COFF的結構已經全部介紹完了。很多了解PE格式的朋友一定會奇怪,好像少了很多內容!?是的,標準的COFF檔案只有這么多的東西。但MS為了和DOS的
執行檔兼容,以及對執行檔功能的擴展,在COFF格式中加了很多它自己的標準。讓我差點就認不出COFF了。但了解了COFF檔案以後,再來學習PE檔案的格式,那就很簡單了。
想了解PE檔案的格式?網上有很多它的資料,我將在本文的基礎上再寫幾篇文章,分別介紹PE,OMF以及ELF的格式。
大家可以自己動手,寫一個COFF檔案解析器或是一個簡單的連線程式了!
格式檔案
Microchip 的COFF 規範基於Understanding and Using COFF(Gintaras R. Gircys ©1988, O’Reilly and Associates, Inc)中描述的UNIX® System V COFF 格式。但Microchip COFF 格式和UNIX SystemV COFF 格式有不同之處。詳細信息可查閱《MPLAB C18用戶指南》。