正則表達式

正則表達式

正則表達式,又稱規則表達式(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。

許多程式設計語言都支持利用正則表達式進行字元串操作。例如,在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體(例如sed和grep)普及開的。正則表達式通常縮寫成“regex”,單數有regexp、regex,複數有regexps、regexes、regexen。

基本介紹

  • 中文名:正則表達式
  • 外文名:Regular Expression
  • 別稱:正規表示法、常規表示法
  • 代碼簡寫:regex、regexp或RE
概念,簡介,起源,目的,特點,引擎,符號,速記理解技巧,替換技巧,實例目錄,套用實例,驗證URL,零寬斷言,負向零寬,

概念

正則表達式是對字元串操作的一種邏輯公式,就是用事先定義好的一些特定字元、及這些特定字元的組合,組成一個“規則字元串”,這個“規則字元串”用來表達對字元串的一種過濾邏輯。

簡介

正則表達式是對字元串(包括普通字元(例如,a 到 z 之間的字母)和特殊字元(稱為“元字元”))操作的一種邏輯公式,就是用事先定義好的一些特定字元、及這些特定字元的組合,組成一個“規則字元串”,這個“規則字元串”用來表達對字元串的一種過濾邏輯。正則表達式是一種文本模式,該模式描述在搜尋文本時要匹配的一個或多個字元串。

起源

正則表達式的“鼻祖”或許可一直追溯到科學家對人類神經系統工作原理的早期研究。美國新澤西州的Warren McCulloch和出生在美國底特律的Walter Pitts這兩位神經生理方面的科學家,研究出了一種用數學方式來描述神經網路的新方法,他們創造性地將神經系統中的神經元描述成了小而簡單的自動控制元,從而作出了一項偉大的工作革新。
在1951 年,一位名叫Stephen Kleene的數學科學家,他在Warren McCulloch和Walter Pitts早期工作的基礎之上,發表了一篇題目是《神經網事件的表示法》的論文,利用稱之為正則集合的數學符號來描述此模型,引入了正則表達式的概念。正則表達式被作為用來描述其稱之為“正則集的代數”的一種表達式,因而採用了“正則表達式”這個術語。
之後一段時間,人們發現可以將這一工作成果套用於其他方面。Ken Thompson就把這一成果套用於計算搜尋算法的一些早期研究,Ken Thompson是 Unix的主要發明人,也就是大名鼎鼎的Unix之父。Unix之父將此符號系統引入編輯器QED,然後是Unix上的編輯器ed,並最終引入grep。Jeffrey Friedl 在其著作《Mastering Regular Expressions (2nd edition)》(中文版譯作:精通正則表達式,已出到第三版)中對此作了進一步闡述講解,如果你希望更多了解正則表達式理論和歷史,推薦你看看這本書。
自此以後,正則表達式被廣泛地套用到各種UNIX或類似於UNIX的工具中,如大家熟知的Perl。Perl的正則表達式源自於Henry Spencer編寫的regex,之後已演化成了pcre(Perl兼容正則表達式Perl Compatible Regular Expressions),pcre是一個由Philip Hazel開發的、為很多現代工具所使用的庫。正則表達式的第一個實用應用程式即為Unix中的 qed 編輯器。
然後,正則表達式在各種計算機語言或各種套用領域得到了廣大的套用和發展,演變成為計算機技術森林中的一隻形神美麗且聲音動聽的百靈鳥。
以上是關於正則表達式的起源和發展的歷史描述,如今正則表達式在基於文本的編輯器和搜尋工具中依然占據著一個非常重要的地位。
在最近的六十年中,正則表達式逐漸從模糊而深奧的數學概念,發展成為在計算機各類工具和軟體包套用中的主要功能。不僅僅眾多UNIX工具支持正則表達式,近二十年來,在WINDOWS的陣營下,正則表達式的思想和套用在大部分 Windows 開發者工具包中得到支持和嵌入套用!從正則式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和發展,WINDOWS系列產品對正則表達式的支持發展到無與倫比的高度,幾乎所有 Microsoft 開發者和所有.NET語言都可以使用正則表達式。如果你是一位接觸計算機語言的工作者,那么你會在主流作業系統(*nix[Linux, Unix等]、Windows、HP、BeOS等)、主流的開發語言(delphi、ScalaPHPC#、Java、C++、Objective-c、Swift、VB、JavascriptRuby以及Python等)、數以億萬計的各種套用軟體中,都可以看到正則表達式優美的舞姿。

目的

給定一個正則表達式和另一個字元串,我們可以達到如下的目的:
1. 給定的字元串是否符合正則表達式的過濾邏輯(稱作“匹配”):
2. 可以通過正則表達式,從字元串中獲取我們想要的特定部分。

特點

正則表達式的特點是:
1. 靈活性、邏輯性和功能性非常強;
2. 可以迅速地用極簡單的方式達到字元串的複雜控制。
3. 對於剛接觸的人來說,比較晦澀難懂。
由於正則表達式主要套用對象是文本,因此它在各種文本編輯器場合都有套用,小到著名編輯器EditPlus,大到Microsoft Word、Visual Studio等大型編輯器,都可以使用正則表達式來處理文本內容。

引擎

正則引擎主要可以分為兩大類:一種是DFA,一種是NFA。這兩種引擎都有了很久的歷史(至今二十多年),當中也由這兩種引擎產生了很多變體!於是POSIX的出台規避了不必要變體的繼續產生。這樣一來,主流的正則引擎又分為3類:一、DFA,二、傳統型NFA,三、POSIX NFA。
DFA 引擎線上性時狀態下執行,因為它們不要求回溯(並因此它們永遠不測試相同的字元兩次)。DFA 引擎還可以確保匹配最長的可能的字元串。但是,因為 DFA 引擎只包含有限的狀態,所以它不能匹配具有反向引用的模式;並且因為它不構造顯示擴展,所以它不可以捕獲子表達式。
傳統的 NFA 引擎運行所謂的“貪婪的”匹配回溯算法,以指定順序測試正則表達式的所有可能的擴展並接受第一個匹配項。因為傳統的 NFA 構造正則表達式的特定擴展以獲得成功的匹配,所以它可以捕獲子表達式匹配和匹配的反向引用。但是,因為傳統的 NFA 回溯,所以它可以訪問完全相同的狀態多次(如果通過不同的路逕到達該狀態)。因此,在最壞情況下,它的執行速度可能非常慢。因為傳統的 NFA 接受它找到的第一個匹配,所以它還可能會導致其他(可能更長)匹配未被發現。
POSIX NFA 引擎與傳統的 NFA 引擎類似,不同的一點在於:在它們可以確保已找到了可能的最長的匹配之前,它們將繼續回溯。因此,POSIX NFA 引擎的速度慢於傳統的 NFA 引擎;並且在使用 POSIX NFA 時,您恐怕不會願意在更改回溯搜尋的順序的情況下來支持較短的匹配搜尋,而非較長的匹配搜尋。
使用DFA引擎的程式主要有:awk,egrep,flex,lex,MySQL,Procmail等;
使用傳統型NFA引擎的程式主要有:GNU Emacs,Java,ergp,less,more,.NET語言,PCRE library,Perl,PHP,Python,Ruby,sed,vi;
使用POSIX NFA引擎的程式主要有:mawk,Mortice Kern Systems’ utilities,GNU Emacs(使用時可以明確指定);
也有使用DFA/NFA混合的引擎:GNU awk,GNU grep/egrep,Tcl。
舉例簡單說明NFA與DFA工作的區別:
比如有字元串this is yansen’s blog,正則表達式為 /ya(msen|nsen|nsem)/ (不要在乎表達式怎么樣,這裡只是為了說明引擎間的工作區別)。 NFA工作方式如下,先在字元串中查找 y 然後匹配其後是否為 a ,如果是 a 則繼續,查找其後是否為 m 如果不是則匹配其後是否為 n (此時淘汰msen選擇支)。然後繼續看其後是否依次為 s,e,接著測試是否為 n ,是 n 則匹配成功,不是則測試是否為 m 。為什麼是 m ?因為 NFA 工作方式是以正則表達式為標準,反覆測試字元串,這樣同樣一個字元串有可能被反覆測試了很多次!
而DFA則不是如此,DFA會從 this 中 t 開始依次查找 y,定位到 y ,已知其後為a,則查看錶達式是否有 a ,此處正好有a 。然後字元串a 後為n ,DFA依次測試表達式,此時 msen 不符合要求淘汰。nsen 和 nsem 符合要求,然後DFA依次檢查字元串,檢測到sen 中的 n 時只有nsen 分支符合,則匹配成功!
由此可以看出來,兩種引擎的工作方式完全不同,一個(NFA)以表達式為主導,一個(DFA)以文本為主導!一般而論,DFA引擎則搜尋更快一些!但是NFA以表達式為主導,反而更容易操縱,因此一般程式設計師更偏愛NFA引擎! 兩種引擎各有所長,而真正的引用則取決與你的需要以及所使用的語言!

符號

(摘自《正則表達式之道》)
正則表達式由一些普通字元和一些元字元(metacharacters)組成。普通字元包括大小寫的字母和數字,而元字元則具有特殊的含義,我們下面會給予解釋。
在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字元,它可以匹配"testing"和"testing123"等字元串,但是不能匹配"Testing"。
要想真正的用好正則表達式,正確的理解元字元是最重要的事情。下表列出了所有的元字元和對它們的一個簡短的描述。
元字元
描述
\
將下一個字元標記符、或一個向後引用、或一個八進制轉義符。例如,“\\n”匹配\n。“\n”匹配換行符。序列“\\”匹配“\”而“\(”則匹配“(”。即相當於多種程式語言中都有的“轉義字元”的概念。
^
匹配輸入字行首。如果設定了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之後的位置。
$
匹配輸入行尾。如果設定了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。
*
匹配前面的子表達式任意次。例如,zo*能匹配“z”,也能匹配“zo”以及“zoo”。*等價於{0,}。
+
匹配前面的子表達式一次或多次(大於等於1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價於{1,}。
?
匹配前面的子表達式零次或一次。例如,“do(es)?”可以匹配“do”或“does”。?等價於{0,1}。
{n}
n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。
{n,}
n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”。
{n,m}
mn均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o為一組,後三個o為一組。“o{0,1}”等價於“o?”。請注意在逗號和兩個數之間不能有空格。
?
當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式儘可能少地匹配所搜尋的字元串,而默認的貪婪模式則儘可能多地匹配所搜尋的字元串。例如,對於字元串“oooo”,“o+”將儘可能多地匹配“o”,得到結果[“oooo”],而“o+?”將儘可能少地匹配“o”,得到結果 ['o', 'o', 'o', 'o']
.點
匹配除“\n”和"\r"之外的任何單個字元。要匹配包括“\n”和"\r"在內的任何字元,請使用像“[\s\S]”的模式。
(pattern)
匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括弧字元,請使用“\(”或“\)”。
(?:pattern)
非獲取匹配,匹配pattern但不獲取匹配結果,不進行存儲供以後使用。這在使用或字元“(|)”來組合一個模式的各個部分時很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。
(?=pattern)
非獲取匹配,正向肯定預查,在任何匹配pattern的字元串開始處匹配查找字元串,該匹配不需要獲取供以後使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。
(?!pattern)
非獲取匹配,正向否定預查,在任何不匹配pattern的字元串開始處匹配查找字元串,該匹配不需要獲取供以後使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。
(?<=pattern)
非獲取匹配,反向肯定預查,與正向肯定預查類似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
*python的正則表達式沒有完全按照正則表達式規範實現,所以一些高級特性建議使用其他語言如java、scala等
(?<!patte_n)
非獲取匹配,反向否定預查,與正向否定預查類似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。
*python的正則表達式沒有完全按照正則表達式規範實現,所以一些高級特性建議使用其他語言如java、scala等
x|y
匹配x或y。例如,“z|food”能匹配“z”或“food”(此處請謹慎)。“[z|f]ood”則匹配“zood”或“food”。
[xyz]
字元集合。匹配所包含的任意一個字元。例如,“[abc]”可以匹配“plain”中的“a”。
[^xyz]
負值字元集合。匹配未包含的任意字元。例如,“[^abc]”可以匹配“plain”中的“plin”任一字元。
[a-z]
字元範圍。匹配指定範圍內的任意字元。例如,“[a-z]”可以匹配“a”到“z”範圍內的任意小寫字母字元。
注意:只有連字元在字元組內部時,並且出現在兩個字元之間時,才能表示字元的範圍; 如果出字元組的開頭,則只能表示連字元本身.
[^a-z]
負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
\b
匹配一個單詞的邊界,也就是指單詞和空格間的位置(即正則表達式的“匹配”有兩種概念,一種是匹配字元,一種是匹配位置,這裡的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”;“\b1_”可以匹配“1_23”中的“1_”,但不能匹配“21_3”中的“1_”。
\B
匹配非單詞邊界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
\cx
匹配由x指明的控制字元。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字元。
\d
匹配一個數字字元。等價於[0-9]。grep 要加上-P,perl正則支持
\D
匹配一個非數字字元。等價於[^0-9]。grep要加上-P,perl正則支持
\f
匹配一個換頁符。等價於\x0c和\cL。
\n
匹配一個換行符。等價於\x0a和\cJ。
\r
匹配一個回車符。等價於\x0d和\cM。
\s
匹配任何不可見字元,包括空格、制表符、換頁符等等。等價於[ \f\n\r\t\v]。
\S
匹配任何可見字元。等價於[^ \f\n\r\t\v]。
\t
匹配一個制表符。等價於\x09和\cI。
\v
匹配一個垂直制表符。等價於\x0b和\cK。
\w
匹配包括下劃線的任何單詞字元。類似但不等價於“[A-Za-z0-9_]”,這裡的"單詞"字元使用Unicode字元集。
\W
匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。
\xn
匹配n,其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如,“\x41”匹配“A”。“\x041”則等價於“\x04&1”。正則表達式中可以使用ASCII編碼。
\num
匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字元。
\n
標識一個八進制轉義值或一個向後引用。如果\n之前至少n個獲取的子表達式,則n為向後引用。否則,如果n為八進制數字(0-7),則n為一個八進制轉義值。
\nm
標識一個八進制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表達式,則nm為向後引用。如果\nm之前至少有n個獲取,則n為一個後跟文字m的向後引用。如果前面的條件都不滿足,若nm均為八進制數字(0-7),則\nm將匹配八進制轉義值nm
\nml
如果n為八進制數字(0-7),且ml均為八進制數字(0-7),則匹配八進制轉義值nml
\un
匹配n,其中n是一個用四個十六進制數字表示的Unicode字元。例如,\u00A9匹配著作權符號(&copy;)。
\p{P}
小寫 p 是 property 的意思,表示 Unicode 屬性,用於 Unicode 正表達式的前綴。中括弧內的“P”表示Unicode 字元集七個字元屬性之一:標點字元。
其他六個屬性:
L:字母;
M:標記符號(一般不會單獨出現);
Z:分隔設定(比如空格、換行等);
S:符號(比如數學符號、貨幣符號等);
N:數字(比如阿拉伯數字、羅馬數字等);
C:其他字元。
*註:此語法部分語言不支持,例:javascript。
\<
\>
匹配詞(word)的開始(\<)和結束(\>)。例如正則表達式\<the\>能夠匹配字元串"for the wise"中的"the",但是不能匹配字元串"otherwise"中的"the"。注意:這個元字元不是所有的軟體都支持的。
( )
將( 和 ) 之間的表達式定義為“組”(group),並且將匹配這個表達式的字元保存到一個臨時區域(一個正則表達式中最多可以保存9個),它們可以用 \1 到\9 的符號來引用。
|
將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表達式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字元不是所有的軟體都支持的。
最簡單的元字元是點,它能夠匹配任何單個字元(注意不包括換行符)。假定有個檔案test.txt包含以下幾行內容:
he is arat
he is in a rut
the food is Rotten
I like root beer
我們可以使用grep命令來測試我們的正則表達式,grep命令使用正則表達式去嘗試匹配指定檔案的每一行,並將至少有一處匹配表達式的所有行顯示出來。命令
grep r.t test.txt
在test.txt檔案中的每一行中搜尋正則表達式r.t,並列印輸出匹配的行。正則表達式r.t匹配一個r接著任何一個字元再接著一個t。所以它將匹配檔案中的rat和rut,而不能匹配Rotten中的Rot,因為正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字元區間元字元(方括弧)。正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接著任何一個字元再接著一個t就要使用這個表達式:[Rr].t。
要想匹配行首的字元要使用抑揚字元(^)——有時也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用正則表達式^he,它只匹配在行首出現的he。
有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字元(^)出方括弧中時,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情形(也就是the和she),可以使用:[^st]he。
可以使用方括弧來指定多個字元區間。例如正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;正則表達式[A-Za-z][A-Za-z]* 匹配一個字母后面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字元+做到同樣的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字元+ 並不是所有支持正則表達式的程式都支持的。關於這一點可以參考後面的正則表達式語法支持情況。
要指定特定數量的匹配,要使用大括弧(注意並不是所有擴展正則表達式的實現都支持大括弧。此外,根據具體的實現,您可能需要先使用反斜槓對其進行轉義。)。想匹配所有10和100的實例而排除1和 1000,可以使用:10\{1,2\} 或 10{1, 2},這個正則表達式匹配數字1後面跟著1或者2個0的模式。在這個元字元的使用中一個有用的變化是忽略第二個數字,例如正則表達式0\{3,\} 或 0{3,} 將匹配至少3個連續的0。
例1
將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這裡a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:
之前 之後
foo(10,7,2) foo(7,10,2)
foo(x+13,y-2,10) foo(y-2,x+13,10)
foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)
下面這條替換命令能夠實現這一方法:
:%s/foo\(([^,]*),([^,]*),([^,]*)\)/foo\(\2,\1,\3\)/g
讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括弧中的三個參數的位置。第一個參數是用這個表達式來識別的::([^,]*),我們可以從裡向外來分析它:
[^,] 除了逗號之外的任何字元
[^,]* 0或者多個非逗號字元
([^,]*) 將這些非逗號字元標記為\1,這樣可以在之後的替換模式表達式中引用它
([^,]*), 我們必須找到0或者多個非逗號字元後面跟著一個逗號,並且非逗號字元那部分要標記出來以備後用。
正是指出一個使用正則表達式常見錯誤的最佳時機。為什麼我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?構想我們使用模式.*來匹配字元串"10,7,2",它應該匹配"10,"還是"10,7,"?為了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出第一個逗號之前的部分。
這個表達式我們已經分析到了:foo\(([^,]*),這一段可以簡單的翻譯為“當你找到foo(就把其後直到第一個逗號之前的部分標記為\1”。然後我們使用同樣的辦法標記第二個參數為\2。對第三個參數的標記方法也是一樣,只是我們要搜尋所有的字元直到右括弧。我們並沒有必要去搜尋第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overloading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應實例,然後利用標記好的部分進行替換,是把第一和第二個參數交換位置。
正則表達式語法支持情況
命令或環境
.
[ ]
^
$
\( \)
\{ \}
?
+
|
( )
vi
Visual C++
awk
awk是支持該語法的,只是要在命令
行加入 --posix or --re-interval參數即可,可見
man awk中的interval expression
sed
delphi
python
java
javascript
php
perl
C#

速記理解技巧

.
[ ]
^
$
四個字元是所有語言都支持的正則表達式,所以這四個是基礎的正則表達式。正則難理解因為裡面有一個等價的概念,這個概念大大增加了理解難度,讓很多初學者看起來會懵,如果把等價都恢復成原始寫法,自己書寫正則就超級簡單了,就像說話一樣去寫你的正則了:

等價:
等價是等同於的意思,表示同樣的功能,用不同符號來書寫。
?,*,+,\d,\w 都是等價字元
?等價於匹配長度{0,1}
*等價於匹配長度{0,}
+等價於匹配長度{1,}
\d等價於[0-9]
\D等價於[^0-9]
\w等價於[A-Za-z_0-9]
\W等價於[^A-Za-z_0-9]。
常用運算符與表達式:
^ 開始
() 域段
[] 包含,默認是一個字元長度
[^] 不包含,默認是一個字元長度
{n,m} 匹配長度
. 任何單個字元(\. 字元點)
| 或
\ 轉義
$ 結尾
[A-Z] 26個大寫字母
[a-z] 26個小寫字母
[0-9] 0至9數字
[A-Za-z0-9] 26個大寫字母、26個小寫字母和0至9數字
, 分割
.

分割語法:
[A,H,T,W] 包含A或H或T或W字母
[a,h,t,w] 包含a或h或t或w字母
[0,3,6,8] 包含0或3或6或8數字

語法與釋義:基礎語法 "^([]{})([]{})([]{})$"
正則字元串 = "開始([包含內容]{長度})([包含內容]{長度})([包含內容]{長度})結束"

?,*,+,\d,\w 這些都是簡寫的,完全可以用[]和{}代替,在(?:)(?=)(?!)(?<=)(?<!)(?i)(*?)(+?)這種特殊組合情況下除外。
初學者可以忽略?,*,+,\d,\w一些簡寫標示符,學會了基礎使用再按表自己去等價替換


實例:
字元串;tel:086-0666-88810009999
原始正則:"^tel:[0-9]{1,3}-[0][0-9]{2,3}-[0-9]{8,11}$"
速記理解:開始 "tel:普通文本"[0-9數字]{1至3位}"-普通文本"[0數字][0-9數字]{2至3位}"-普通文本"[0-9數字]{8至11位} 結束"
等價簡寫後正則寫法:"^tel:\d{1,3}-[0]\d{2,3}-\d{8,11}$" ,簡寫語法不是所有語言都支持。

替換技巧

實例目錄

【1】 正則表達式套用——替換指定內容到行尾
【2】 正則表達式套用——數字替換
【3】 正則表達式套用——刪除每一行行尾的指定字元
【4】 正則表達式套用——替換帶有半角括弧的多行
【5】 正則表達式套用——刪除空行
【6】 正則表達式套用——實例套用

套用實例

【1】正則表達式套用——替換指定內容到行尾
原始文本如下面兩行
abc aaaaa
123 abc 444
希望每次遇到“abc”,則替換“abc”以及其後到行尾的內容為“abc efg”
即上面的文本最終替換為:
abc efg
123 abc efg
解決:
① 在替換對話框,查找內容里輸入“abc.*”,替換內容輸入為“abc efg”
② 同時勾選“正則表達式”複選框,然後點擊“全部替換”按鈕
其中,符號的含義如下:
“.” =匹配任意字元
“*” =匹配0次或更多
注意:其實就是正則表達式替換,這裡只是把一些曾經提出的問題加以整理,單純從正則表達式本身來說,就可以引申出成千上萬種特例。
【2】正則表達式套用——數字替換
希望把
asdadas123asdasdas456asdasdasd789asdasd
替換為:
asdadas[123]asdasdas[456]asdasdasd[789]asdasd
在替換對話框裡面,勾選“正則表達式”複選框
在查找內容裡面輸入“([0-9])([0-9])([0-9])”,不含引號
“替換為:”裡面輸入“[\1\2\3]”,不含引號
####備註####:查找([0-9]+) 替換:[\1] 更簡單通用些
範圍為你所操作的範圍,然後選擇替換即可。
實際上這也是正則表達式的使用特例,“[0-9]”表示匹配0~9之間的任何特例,同樣“[a-z]”就表示匹配a~z之間的任何特例
上面重複使用了“[0-9]”,表示連續出現的三個數字
括弧用來選擇原型,進行分組,替換時要用
“\1”代表第一個“[0-9]”對應的原型,“\2”代表第二個“[0-9]”對應的原型,依此類推
“[”|“]”為單純的字元,表示添加“[”或“]”,如果輸入“其它\1\2\3其它”,則替換結果為:
asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd
功能增強:
如果將查找內容“[0-9][0-9][0-9]”改為“[0-9]*[0-9]”,對應1 或 123 或 12345 或 ...
大家根據需要定製
相關內容還有很多,可以自己參考正則表達式的語法仔
【3】正則表達式套用——刪除每一行行尾的指定字元
因為這幾個字元在行中也是出現的,所以肯定不能用簡單的替換實現
比如
12345 1265345
2345
需要刪除每行末尾的“345”
這個也算正則表達式的用法,其實仔細看正則表達式應該比較簡單,不過既然有這個問題提出,說明對正則表達式還得有個認識過程,解決方法如下
解決:
在替換對話框中,啟用“正則表達式”複選框
在查找內容裡面輸入“345$”
這裡“$”表示從行尾匹配
如果從行首匹配,可以用“^”來實現,不過 EditPlus 有另一個功能可以很簡單的刪除行首的字元串
a. 選擇要操作的行
b. 編輯-格式-刪除行注釋
c. 在彈出對話框裡面輸入要清除的行首字元,確定
【4】正則表達式套用——替換帶有半角括弧的多行
幾百個網頁中都有下面一段代碼:
<script LANGUAGE="JavaScript1.1">
<!--
htmlAdWH('93163607', '728', '90');
//-->
</SCRIPT>
我想把它們都去掉,可是找了很多search & replace的軟體,都是只能對“一行”進行操作。
EditPlus 打開幾百個網頁檔案還是比較順暢的,所以完全可以勝任這個工作。
具體解決方法,在 Editplus 中使用正則表達式,由於“(”、“)”被用做預設表達式(或者可以稱作子表達式)的標誌,所以查找
“<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH('93163607', '728', '90'.);\n//-->\n</SCRIPT>\n”
時會提示查找不到,所以也就無法進行替換了,這時可以把“(”、“)”使用任意字元標記替代,即半角句號:“.”。替換內容為
<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH.'93163607', '728', '90'.;\n//-->\n</SCRIPT>\n
在替換對話框啟用“正則表達式”選項,這時就可以完成替換了
補充:
對( ) 這樣的特殊符號,應該用\( \)來表示,這也是很標準的regexp語法,可以寫為
<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH\('93163607', '728', '90'\);\n//-->\n</SCRIPT>\n
【5】正則表達式套用——刪除空行
啟動EditPlus,打開待處理的文本類型檔案。
①、選擇“查找”選單的“替換”命令,彈出文本替換對話框。選中“正則表達式”複選框,表明我們要在查找、替換中使用正則表達式。然後,選中“替換範圍”中的“當前檔案”,表明對當前檔案操作。
②、單擊“查找內容”組合框右側的按鈕,出現下拉選單。
③、下面的操作添加正則表達式,該表達式代表待查找的空行。(技巧提示:空行僅包括空格符制表符、回車符,且必須以這三個符號之一作為一行的開頭,並且以回車符結尾,查找空行的關鍵是構造代表空行的正則表達式)。
直接在"查找"中輸入正則表達式“^[ \t]*\n”,注意\t前有空格符。
(1)選擇“從行首開始匹配”,“查找內容”組合框中出現字元“^”,表示待查找字元串必須出文本中一行的行首。
(2)選擇“字元在範圍中”,那么在“^”後會增加一對括弧“[]”,當前插入點在括弧中。括弧在正則表達式中表示,文本中的字元匹配括弧中任意一個字元即符合查找條件。
(3)按一下空格鍵,添加空格符。空格符是空行的一個組成成分。
(4)選擇“制表符”,添加代表制表符的“\t”。
(5)移動游標,將當前插入點移到“]”之後,然後選擇“匹配 0 次或更多”,該操作會添加星號字元“*”。星號表示,其前面的括弧“[]”內的空格符或制表符,在一行中出現0個或多個。
(6)選擇“換行符”,插入“\n”,表示回車符。
④、“替換為”組合框保持空,表示刪除查找到的內容。單擊“替換”按鈕逐個行刪除空行,或單擊“全部替換”按鈕刪除全部空行(注意:EditPlus有時存在“全部替換”不能一次性完全刪除空行的問題,可能是程式BUG,需要多按幾次按鈕)。
【6】 正則表達式套用——實例套用
1.驗證用戶名和密碼:("^[a-zA-Z]\w{5,15}$")正確格式:"[A-Z][a-z]_[0-9]"組成,並且第一個字必須為字母6~16位;
2.驗證電話號碼:("^(\d{3,4}-)\d{7,8}$")正確格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
3.驗證手機號碼:"^1[3|4|5|7|8][0-9]{9}$";
4.驗證身份證號(15位):"\d{14}[[0-9],0-9xX]",(18位):"\d{17}(\d|X|x)";
5.驗證Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
6.只能輸入由數字和26個英文字母組成的字元串:("^[A-Za-z0-9]+$");
7.整數或者小數:^[0-9]+([.][0-9]+){0,1}$
8.只能輸入數字:"^[0-9]*$"。
9.只能輸入n位的數字:"^\d{n}$"。
10.只能輸入至少n位的數字:"^\d{n,}$"。
11.只能輸入m~n位的數字:"^\d{m,n}$"。
12.只能輸入零和非零開頭的數字:"^(0|[1-9][0-9]*)$"。
13.只能輸入有兩位小數的正實數:"^[0-9]+(\.[0-9]{2})?$"。
14.只能輸入有1~3位小數的正實數:"^[0-9]+(\.[0-9]{1,3})?$"。
15.只能輸入非零的正整數:"^\+?[1-9][0-9]*$"。
16.只能輸入非零的負整數:"^\-[1-9][0-9]*$"。
17.只能輸入長度為3的字元:"^.{3}$"。
18.只能輸入由26個英文字母組成的字元串:"^[A-Za-z]+$"。
19.只能輸入由26個大寫英文字母組成的字元串:"^[A-Z]+$"。
20.只能輸入由26個小寫英文字母組成的字元串:"^[a-z]+$"。
21.驗證是否含有^%&',;=?$\"等字元:"[%&',;=?$\\^]+"。
22.只能輸入漢字:"^[\u4e00-\u9fa5]{0,}$"。
23.驗證URL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。
24.驗證一年的12個月:"^(0?[1-9]|1[0-2])$"正確格式為:"01"~"09"和"10"~"12"。
25.驗證一個月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正確格式為;"01"~"09"、"10"~"29"和“30”~“31”。
26.獲取日期正則表達式:\\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?
評註:可用來匹配大多數年月日信息。
27.匹配雙位元組字元(包括漢字在內):[^\x00-\xff]
評註:可以用來計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1)
28.匹配空白行的正則表達式:\n\s*\r
評註:可以用來刪除空白行
29.匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</>|<.*? />
評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於複雜的嵌套標記依舊無能為力
30.匹配首尾空白字元的正則表達式:^\s*|\s*$
評註:可以用來刪除行首行尾的空白字元(包括空格、制表符、換頁符等等),非常有用的表達式
31.匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求
32.匹配帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評註:表單驗證時很實用
33.匹配騰訊QQ號:[1-9][0-9]{4,}
評註:騰訊QQ號從10 000 開始
34.匹配中國郵政編碼:[1-9]\\d{5}(?!\d)
評註:中國郵政編碼為6位數字
35.匹配ip地址:([1-9]{1,3}\.){3}[1-9]。
評註:提取ip地址時有用
36.匹配MAC地址:([A-Fa-f0-9]{2}\:){5}[A-Fa-f0-9]
Function IsRegu(Regu,s)
'正則表達式校驗
If Regu="" Then
Exit Function
End if
Dim Re,Sre
Set Re = New RegExp
Re.Pattern = Regu
Sre = Re.Test(s)
If Sre = True Then
IsRegu = True
Else
IsRegu = False
End If
End Function
tmp=" "
if (IsRegu("\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*",tmp )) =false then
msgbox "E-mail地址不合法 !"
FieldCheck#N=false
不同的語言(如PHP和JAVA)、相同語言的不同類庫(如來自Sun的Java Regular Expression類庫跟Apache Jakarta的正則表達式類庫)間,用法會有所差別,在使用的時候,要注意這些差別。

驗證URL

function IsValidUrl(str){varregu="^(https?://)"+"?(([0-9a-z_!~*'().&=+$%-]+:)?[0-9a-z_!~*'().&=+$%-]+@)?"+"(([0-9]{1,3}\.){3}[0-9]{1,3}"+"|"+"([0-9a-z_!~*'()-]+\.)*"+"([0-9a-z][0-9a-z-]{0,61})?[0-9a-z]\."+"[a-z]{2,6})"+"(:[0-9]{1,4})?"+"((/?)|"+"(/[0-9a-z_!~*'().;?:@&=+$,%#-]+)+/?)$";varre=newRegExp(regu);if(!re.test(str)){return false;}return true;}
參考:

零寬斷言

用於查找在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們像\b,^,$那樣用於指定一個位置,這個位置應該滿足一定的條件(即斷言),因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:
(?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的後面能匹配表達式exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.時,它會匹配sing和danc。
(?<=exp)也叫零寬度正回顧後發斷言,它斷言自身出現的位置的前面能匹配表達式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。
假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和裡面添加逗號的部分:((?<=\D)\D{3})+\b,用它對xxxxxxxxxx進行查找時結果是xxxxxxxxx
下面這個例子同時使用了這兩種斷言:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)
斷言用來聲明一個應該為真的事實。正則表達式中只有當斷言為真時才會繼續進行匹配。

負向零寬

如果我們只是想要確保某個字元沒有出現,但並不想去匹配它時怎么辦?例如,如果我們想查找這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣:
\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是因為[^u]總要匹配一個字元,所以如果q是單詞的最後一個字元的話,後面的[^u]將會匹配q後面的單詞分隔設定(可能是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向零寬斷言能解決這樣的問題,因為它只匹配一個位置,並不消費任何字元。,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。
零寬度負預測先行斷言(?!exp),斷言此位置的後面不能匹配表達式exp。例如:\d{3}(?!\d)匹配三位數字,而且這三位數字的後面不能是數字;\b((?!abc)\w)+\b匹配不包含連續字元串abc的單詞。
同理,我們可以用(?<!exp),零寬度負回顧後發斷言來斷言此位置的前面不能匹配表達式exp:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字。
請詳細分析表達式(?<=<(\w+)>).*(?=<\/\1>),這個表達式最能表現零寬斷言的真正用途。
一個更複雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內里的內容。(?<=<(\w+)>)指定了這樣的前綴:被尖括弧括起來的單詞(比如可能是<b>),然後是.*(任意的字元串),最後是一個後綴(?=<\/\1>)。注意後綴里的\/,它用到了前面提過的字元轉義,將”/“轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果前綴實際上是<b>的話,後綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒,不包括前綴和後綴本身)。

相關詞條

熱門詞條

聯絡我們