首先區分一下正反斜槓,這兩個經常搞混。
正斜槓:/ 一般用作除號或者間隔,也可以叫撇斜槓或撇槓;
反斜槓:\ 一般用作目錄,也可以叫捺斜槓或捺槓;
注意一點:在window系統下,\ 表示目錄,在unix系統下,/ 表示目錄,由於web遵循unix命名,所以網址(URL)用 / 表示目錄;
一、元字符
元字符是構造正則表達式的一種基本元素。
. :匹配除換行符以外的任意字符
w:匹配字母或數字或下劃線或漢字
s:匹配任意的空白符
d:匹配數字
b:匹配單詞的開始或結束
^:匹配字符串的開始
$:匹配字符串的結束
匹配有abc開頭的字符串:abc或者^abc
匹配8位數字的QQ號碼:^dddddddd$
匹配1開頭11位數字的手機號碼:^1dddddddddd$
二、重複限定符
正則沒提供辦法處理這些重複的元字符嗎?答案肯定是有的。
*:重複零次或更多次
+:重複一次或更多次
?:重複零次或一次
{n}:重複n次
{n,}:重複n次或更多次
{n,m}:重複n到m次
有了這些限定符之後,我們就可以對之前的正則表達式進行改造了,比如:
匹配8位數字的QQ號碼:^d{8}$
匹配1開頭11位數字的手機號碼:^1d{10}$
匹配銀行卡號是14~18位的數字:^d{14,18}$
匹配以a開頭的,0個或多個b結尾的字符串^ab*$
三、分組()
限定符是作用在與他左邊最近的一個字符,那麼問題來了,如果我想要ab同時被限定那怎麼辦呢?
正則表達式中用小括號()來做分組,也就是括號中的內容作爲一個整體。
因此當我們要匹配多個ab時,我們可以這樣。
如匹配字符串中包含0到多個ab開頭:^(ab)*
四、轉義
正則提供了轉義的方式,也就是要把這些元字符、限定符或者關鍵字轉義成普通的字符,做法很簡答,就是在要轉義的字符前面加個斜槓,也就是\即可。
匹配字符串中包含0到多個ab開頭:^(\(ab\))*
五、條件或 |
回到我們剛纔的手機號匹配,我們都知道:國內號碼都來自三大網,它們都有屬於自己的號段,比如聯通有130/131/132/155/156/185/186/145/176等號段,假如讓我們匹配一個聯通的號碼,那按照我們目前所學到的正則,應該無從下手的,因爲這裏包含了一些並列的條件,也就是“或”,那麼在正則中是如何表示“或”的呢?
正則用符號 | 來表示或,也叫做分支條件,當滿足正則裏的分支條件的任何一種條件時,都會當成是匹配成功。
那麼我們就可以用或條件來處理這個問題
^(130|131|132|155|156|185|186|145|176)\d{8}$
六、區間[ ]
看到上面的例子,是不是看到有什麼規律?是不是還有一種想要簡化的衝動?
實際是有的
正則提供一個元字符中括號 [] 來表示區間條件。
限定0到9 可以寫成[0-9]
限定A-Z 寫成[A-Z]
限定某些數字 [165]
那上面的正則我們還改成這樣:
^((13[0-2])|(15[56])|(18[5-6])|145|176)\d{8}$
七、正則進階之零寬斷言
斷言:俗話的斷言就是“我斷定什麼什麼”,而正則中的斷言,就是說正則可以指明在指定的內容的前面或後面會出現滿足指定規則的內容,
意思正則也可以像人類那樣斷定什麼什麼,比如"ss1aa2bb3",正則可以用斷言找出aa2前面有bb3,也可以找出aa2後面有ss1.零寬:就是沒有寬度,在正則中,斷言只是匹配位置,不佔字符,也就是說,匹配結果裏是不會返回斷言本身。
我們來舉個栗子:
假設我們要用爬蟲抓取csdn裏的文章閱讀量。通過查看源代碼可以看到文章閱讀量這個內容是這樣的結構
"<span class="read-count">閱讀數:641</span>"
其中也就‘641’這個是變量,也就是說不同文章不同的值,當我們拿到這個字符串時,需要獲得這裏邊的‘641’有很多種辦法,但如果正則應該怎麼匹配呢?下面先來講幾種類型的斷言:
正向先行斷言(正前瞻):
語法:(?=pattern)
作用:匹配pattern表達式的前面內容,不返回本身。
這樣子說,還是一臉懵逼,好吧,迴歸剛纔那個栗子,要取到閱讀量,在正則表達式中就意味着要能匹配到‘’前面的數字內容
按照上所說的正向先行斷言可以匹配表達式前面的內容,那意思就是:(?=) 就可以匹配到前面的內容了。
匹配什麼內容呢?如果要所有內容那就是:
String reg=".+(?=</span>)";
String test = "<span class=\"read-count\">閱讀數:641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println("匹配結果:")
System.out.println(mc.group());
}
//匹配結果:
//<span class="read-count">閱讀數:641
大功告成!
正向後行斷言(正後顧):
語法:(?<=pattern)
作用:匹配pattern表達式的後面的內容,不返回本身。
有先行就有後行,先行是匹配前面的內容,那後行就是匹配後面的內容啦。
上面的栗子,我們也可以用後行斷言來處理.
//(?<=<span class="read-count">閱讀數:)\d+
String reg="(?<=<span class=\"read-count\">閱讀數:)\\d+";
String test = "<span class=\"read-count\">閱讀數:641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配結果:
//641
就這麼簡單。
負向先行斷言(負前瞻)
語法:(?!pattern)
作用:匹配非pattern表達式的前面內容,不返回本身。
有正向也有負向,負向在這裏其實就是非的意思。
舉個栗子:比如有一句 “我愛祖國,我是祖國的花朵”
現在要找到不是'的花朵'前面的祖國
用正則就可以這樣寫:
祖國(?!的花朵)
負向後行斷言(負後顧)
語法:(?<!pattern)
作用:匹配非pattern表達式的後面內容,不返回本身。
八、正則進階之捕獲和非捕獲
單純說到捕獲,他的意思是匹配表達式,但捕獲通常和分組聯繫在一起,也就是“捕獲組”
捕獲組:匹配子表達式的內容,把匹配結果保存到內存中中數字編號或顯示命名的組裏,以深度優先進行編號,之後可以通過序號或名稱來使用這些匹配結果。
而根據命名方式的不同,又可以分爲兩種組:
數字編號捕獲組:
語法:(exp)
解釋:從表達式左側開始,每出現一個左括號和它對應的右括號之間的內容爲一個分組,在分組中,第0組爲整個表達式,第一組開始爲分組。
比如固定電話的:020-85653333
正則表達式爲:(0\d{2})-(\d{8})
按照左括號的順序,這個表達式有如下分組:
序號 | 編號 | 分組 | 內容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | 1 | (0\d{2}) | 020 |
2 | 2 | (\d{8}) | 85653333 |
我們用Java來驗證一下:
String test = "020-85653333";
String reg="(0\\d{2})-(\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組爲:"+mc.group(i));
}
}
輸出結果:
分組的個數有:2
第0個分組爲:020-85653333
第1個分組爲:020
第2個分組爲:85653333
可見,分組個數是2,但是因爲第0個爲整個表達式本身,因此也一起輸出了。
命名編號捕獲組:
語法:(?exp)解釋:分組的命名由表達式中的name指定
比如區號也可以這樣寫:(?\0\d{2})-(?\d{8})
按照左括號的順序,這個表達式有如下分組:
序號 | 名稱 | 分組 | 內容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | quhao | (0\d{2}) | 020 |
2 | haoma | (\d{8}) | 85653333 |
用代碼來驗證一下:
String test = "020-85653333";
String reg="(?<quhao>0\\d{2})-(?<haoma>\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數有:"+mc.groupCount());
System.out.println(mc.group("quhao"));
System.out.println(mc.group("haoma"));
}
輸出結果:
分組的個數有:2
分組名稱爲:quhao,匹配內容爲:020
分組名稱爲:haoma,匹配內容爲:85653333
非捕獲組:
語法:(?:exp)
解釋:和捕獲組剛好相反,它用來標識那些不需要捕獲的分組,說的通俗一點,就是你可以根據需要去保存你的分組。
比如上面的正則表達式,程序不需要用到第一個分組,那就可以這樣寫:
(?:\0\d{2})-(\d{8})
序號 | 編號 | 分組 | 內容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | 1 | (\d{8}) | 85653333 |
驗證一下:
String test = "020-85653333";
String reg="(?:0\\d{2})-(\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組爲:"+mc.group(i));
}
}
輸出結果:
分組的個數有:1
第0個分組爲:020-85653333
第1個分組爲:85653333
九、正則進階之反向引用
上面講到捕獲,我們知道:捕獲會返回一個捕獲組,這個分組是保存在內存中,不僅可以在正則表達式外部通過程序進行引用,也可以在正則表達式內部進行引用,這種引用方式就是反向引用。
根據捕獲組的命名規則,反向引用可分爲:
數字編號組反向引用:\k
或\number
命名編號組反向引用:\k
或者\'name'
好了 講完了,懂嗎?不懂!!!
可能連前面講的捕獲有什麼用都還不懂吧?
其實只是看完捕獲不懂不會用是很正常的!
因爲捕獲組通常是和反向引用一起使用的
上面說到捕獲組是匹配子表達式的內容按序號或者命名保存起來以便使用
注意兩個字眼:“內容” 和 “使用”
這裏所說的“內容”,是匹配結果,而不是子表達式本身,強調這個有什麼用?嗯,先記住
那這裏所說的“使用”是怎樣使用呢?
因爲它的作用主要是用來查找一些重複的內容或者做替換指定字符。
還是舉栗子吧:
比如要查找一串字母"aabbbbgbddesddfiid"裏成對的字母
如果按照我們之前學到的正則,什麼區間啊限定啊斷言啊可能是辦不到的,
現在我們先用程序思維理一下思路:
1)匹配到一個字母
2)匹配第下一個字母,檢查是否和上一個字母是否一樣
3)如果一樣,則匹配成功,否則失敗
這裏的思路2中匹配下一個字母時,需要用到上一個字母,那怎麼記住上一個字母呢???
這下子捕獲就有用處啦,我們可以利用捕獲把上一個匹配成功的內容用來作爲本次匹配的條件
好了,有思路就要實踐
首先匹配一個字母:\w
我們需要做成分組才能捕獲,因此寫成這樣:(\w)
那這個表達式就有一個捕獲組:(\w)
然後我們要用這個捕獲組作爲條件,那就可以:(\w)\1
這樣就大功告成了
可能有人不明白了,\1是什麼意思呢?
還記得捕獲組有兩種命名方式嗎,一種是是根據捕獲分組順序命名,一種是自定義命名來作爲捕獲組的命名
在默認情況下都是以數字來命名,而且數字命名的順序是從1開始的
因此要引用第一個捕獲組,根據反向引用的數字命名規則 就需要 \k<1>或者\1
當然,通常都是是後者。
我們來測試一下:
String test = "aabbbbgbddesddfiid";
Pattern pattern = Pattern.compile("(\\w)\\1");
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
輸出結果:
aa
bb
bb
dd
dd
ii
嗯,這就是我們想要的了。
在舉個替換的例子,假如想要把字符串中abc換成a
String test = "abcbbabcbcgbddesddfiid";
String reg="(a)(b)c";
System.out.println(test.replaceAll(reg, "$1"));
輸出結果:
abbabcgbddesddfiid
十、正則進階之貪婪和非貪婪
1.貪婪
我們都知道,貪婪就是不滿足,儘可能多的要。
在正則中,貪婪也是差不多的意思:貪婪匹配:當正則表達式中包含能接受重複的限定符時,通常的行爲是(在使整個表達式能得到匹配的前提下)匹配儘可能多的字符,這匹配方式叫做貪婪匹配。
特性:一次性讀入整個字符串進行匹配,每當不匹配就捨棄最右邊一個字符,繼續匹配,依次匹配和捨棄(這種匹配-捨棄的方式也叫做回溯),直到匹配成功或者把整個字符串捨棄完爲止,因此它是一種最大化的數據返回,能多不會少。
前面我們講過重複限定符,其實這些限定符就是貪婪量詞,比如表達式:
\d{3,6}
用來匹配3到6位數字,在這種情況下,它是一種貪婪模式的匹配,也就是假如字符串裏有6個個數字可以匹配,那它就是全部匹配到。
如
String reg="\\d{3,6}";
String test="61762828 176 2991 871";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結果:"+m1.group(0));
}
輸出結果:
文本:61762828 176 2991 44 871
貪婪模式:\d{3,6}
匹配結果:617628
匹配結果:176
匹配結果:2991
匹配結果:871
由結果可見:本來字符串中的“61762828”這一段,其實只需要出現3個(617)就已經匹配成功了的,但是他並不滿足,而是匹配到了最大能匹配的字符,也就是6個。
一個量詞就如此貪婪了,
那有人會問,如果多個貪婪量詞湊在一起,那他們是如何支配自己的匹配權的呢?
是這樣的,多個貪婪在一起時,如果字符串能滿足他們各自最大程度的匹配時,就互不干擾,但如果不能滿足時,會根據深度優先原則,也就是從左到右的每一個貪婪量詞,優先最大數量的滿足,剩餘再分配下一個量詞匹配。
String reg="(\\d{1,2})(\\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結果:"+m1.group(0));
}
輸出結果:
文本:61762828 176 2991 87321
貪婪模式:(\d{1,2})(\d{3,4})
匹配結果:617628
匹配結果:2991
匹配結果:87321
“617628” 是前面的\d{1,2}匹配出了61,後面的匹配出了7628
"2991" 是前面的\d{1,2}匹配出了29 ,後面的匹配出了91
"87321"是前面的\d{1,2}匹配出了87,後面的匹配出了321
2. 懶惰(非貪婪)
懶惰匹配:當正則表達式中包含能接受重複的限定符時,通常的行爲是(在使整個表達式能得到匹配的前提下)匹配儘可能少的字符,這匹配方式叫做懶惰匹配。
特性:從左到右,從字符串的最左邊開始匹配,每次試圖不讀入字符匹配,匹配成功,則完成匹配,否則讀入一個字符再匹配,依此循環(讀入字符、匹配)直到匹配成功或者把字符串的字符匹配完爲止。
懶惰量詞是在貪婪量詞後面加個“?”
代碼 | 說明 |
---|---|
*? | 重複任意次,但儘可能少重複 |
+? | 重複1次或更多次,但儘可能少重複 |
?? | 重複0次或1次,但儘可能少重複 |
{n,m}? | 重複n到m次,但儘可能少重複 |
{n,}? | 重複n次以上,但儘可能少重複 |
String reg="(\\d{1,2}?)(\\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結果:"+m1.group(0));
}
輸出結果:
文本:61762828 176 2991 87321
貪婪模式:(\d{1,2}?)(\d{3,4})
匹配結果:61762
匹配結果:2991
匹配結果:87321
解答:
“61762” 是左邊的懶惰匹配出6,右邊的貪婪匹配出1762
"2991" 是左邊的懶惰匹配出2,右邊的貪婪匹配出991
"87321" 左邊的懶惰匹配出8,右邊的貪婪匹配出7321
十一、正則進階之反義
前面說到元字符的都是要匹配什麼什麼,當然如果你想反着來,不想匹配某些字符,正則也提供了一些常用的反義元字符:
十二、正則表達式匹配網站
十三、附錄,常用正則表達式
一、校驗數字的表達式
1 數字:^[0-9]*$
2 n位的數字:^\d{n}$
3 至少n位的數字:^\d{n,}$
4 m-n位的數字:^\d{m,n}$
5 零和非零開頭的數字:^(0|[1-9][0-9]*)$
6 非零開頭的最多帶兩位小數的數字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
7 帶1-2位小數的正數或負數:^(\-)?\d+(\.\d{1,2})?$
8 正數、負數、和小數:^(\-|\+)?\d+(\.\d+)?$
9 有兩位小數的正實數:^[0-9]+(.[0-9]{2})?$
10 有1~3位小數的正實數:^[0-9]+(.[0-9]{1,3})?$
11 非零的正整數:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的負整數:^\-[1-9][]0-9*$ 或 ^-[1-9]\d*$
13 非負整數:^\d+$ 或 ^[1-9]\d*|0$
14 非正整數:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非負浮點數:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮點數:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮點數:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 負浮點數:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮點數:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
二、校驗字符的表達式
1 漢字:^[\u4e00-\u9fa5]{0,}$
2 英文和數字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3 長度爲3-20的所有字符:^.{3,20}$
4 由26個英文字母組成的字符串:^[A-Za-z]+$
5 由26個大寫英文字母組成的字符串:^[A-Z]+$
6 由26個小寫英文字母組成的字符串:^[a-z]+$
7 由數字和26個英文字母組成的字符串:^[A-Za-z0-9]+$
8 由數字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$
9 中文、英文、數字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文、數字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
12 禁止輸入含有~的字符:[^~\x22]+
三、特殊需求表達式
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX"):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份證號(15位、18位數字):^\d{15}|\d{18}$
8 短身份證號碼(數字、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-zA-Z]\w{5,17}$
11 強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 錢的輸入格式:
16 1).有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
17 2).這表示任意一個不以0開頭的數字,但是,這也意味着一個字符"0"不通過,所以我們採用下面的形式:^(0|[1-9][0-9]*)$
18 3).一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$
19 4).這表示一個0或者一個可能爲負的開頭不爲0的數字.讓用戶以0開頭好了.把負號的也去掉,因爲錢總不能是負的吧.下面我們要加的是說明可能的小數部分:^[0-9]+(.[0-9]+)?$
20 5).必須說明的是,小數點後面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$
21 6).這樣我們規定小數點後面必須有兩位,如果你認爲太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$
22 7).這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 8). 1到3個數字,後面跟着任意個 逗號+3個數字,逗號成爲可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 備註:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,爲什麼?)最後,別忘了在用函數時去掉去掉那個反斜槓,一般的錯誤都在這裏25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26 中文字符的正則表達式:[\u4e00-\u9fa5]
27 雙字節字符:[^\x00-\xff] (包括漢字在內,可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1))
28 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)
29 HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於複雜的嵌套標記依舊無能爲力)
30 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、製表符、換頁符等等),非常有用的表達式)
31 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
32 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼爲6位數字)
33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用)
34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
好了,正則表達式的基本用法就講到這裏了,其實它還有非常多的知識點以及元字符,我們在此只列舉了部分元字符和語法來講,旨在給那些不懂正則或者想學正則但有看不下去文檔的人做一個快速入門級的教程,看完本教程,即使你不能寫出高大上的正則,至少也能寫一些簡單的正則或者看得懂別人寫的正則了。
—————————————
文章轉自:https://blog.csdn.net/William0318/article/details/102775217