基本介紹
- 中文名:形式語法
- 外文名:formal grammar
- 所屬學科:計算機科學
簡介
形式文法描述形式語言的基本想法是,從一個特殊的初始符合出發,不斷的套用一些產生式規則,從而生成出一個字串的集合。產生式規則指定了某些符號組合如何被另外一些符號組合替換。舉例來說,假設字母表只包含 'a' 和 'b' 兩個字元,初始符號是 'S' ,我們套用下述規則:
1. S -> aSb
2. S -> ba
於是我們可以通過把 "S" 重寫為 "aSb"(規則1),我們還可以繼續套用這條規則把 "aSb" 重寫為 "aaSbb"。這個重寫的過程不斷重複,直到結果中只包含字母表中的字母為止。在例子中,我們可以得到 S -> aSb -> aaSbb -> aababb 這樣的結果。由文法刻畫的語言包含了所有可以這樣產生的字串,比如 ba, abab, aababb, aaababbb 等等。
形式定義
非終結符號集合 N。
終結符號集合 Σ ,Σ 與 N 無交。
取如下形式的一組產生式規則 P,
(Σ ∪ N)*中的字串 -> (Σ ∪ N)* 中的字串字串,並且產生式左側的字串中必須至少包括一個非終結符號。
起始符號 S,S 屬於 N。
一個由形式文法 G = (N, Σ, P, S) 產生的語言是所有如下形式字串的集合,這些字串全部由終結符號集 Σ 中符號構成,並且可以從初始符號 S 出發,不斷套用 P 中的產生式規則而得到。
例子
考慮如下的文法 G ,其中 N = {S, B}, Σ = {a, b, c}, P 包含下述規則
1. S -> aBSc
2. S -> abc
3. Ba -> aB
4. Bb -> bb
非終結符號 S 作為初始符號。下面給出字串推導的例子:(推導使用的產生規則用括弧標出,替換的字串用黑體標出)
S -> (2) abc
S -> (1) aBSc -> (2) aBabcc -> (3) aaBbcc -> (4) aabbcc
S -> (1) aBSc -> (1) aBaBScc -> (2) aBaBabccc -> (3) aaBBabccc -> (3) aaBaBbccc -> (3) aaaBBbccc -> (4) aaaBbbccc -> (4) aaabbbccc
很清楚這個文法定義了語言 { anbncn | n > 0 } ,這裡 an 表示含有 n 個 a 的字串。
形式文法與 Lindenmayer 系統(L-系統)類似, 但有幾點不同:L-系統不區分終結符號和非終結符號;L-系統限制規則的套用順序;L-系統能不停地運行,產生一個無限長的字串列。通常情況下,每一個字串同空間中的一個點集聯繫起來,而L-系統的輸出就是這個點集列的極限。L-系統可以用於模擬細胞的生長,所以又被稱為發展系統。
文法分類
0型文法
1型文法
注意:雖然要求|β|>=|α|,但有一特例:α→ε也滿足1型文法。
如有A->Ba則|β|=2,|α|=1符合1型文法要求。反之,如aA->a,則不符合1型文法。
2型文法
如Ab->Bab雖然符合1型文法要求,但不符合2型文法要求,因為其α=Ab,而Ab不是一個非終結符。
3型文法
如有:A->a,A->aB,B->a,B->cB,則符合3型文法的要求。但如果推導為:A->ab,A->aB,B->a,B->cB或推導為:A->a,A->Ba,B->a,B->cB則不符合3型方法的要求了。具體的說,例子A->ab,A->aB,B->a,B->cB中的A->ab不符合3型文法的定義,如果把後面的ab,改成“一個非終結符+一個終結符”的形式(即為aB)就對了。例子A->a,A->Ba,B->a,B->cB中如果把B->cB改為B->Bc的形式就對了,因為A→α|αB(右線性)和A→α|Bα(左線性)兩套規則不能同時出現在一個語法中,只能完全滿足其中的一個,才能算3型文法。
注意:上面例子中的大寫字母表示的是非終結符,而小寫字母表示的是終結符。