正則基礎之--/b 單詞邊界

1        概述
“/b”匹配單詞邊界,不匹配任何字符。

“/b”匹配的只是一個位置,這個位置的一側是構成單詞的字符,另一側爲非單詞字符、字符串的開始或結束位置。“/b”是零寬度的。

基本上所有的資料裏都會說“/b”是單詞邊界,但是關於“單詞”的範圍卻是少有提及。通常情況下,正則表達式中所謂的“單詞”,就是由“/w”所定義的字符所組成的子串。

“/b”表示所在位置的一側爲單詞字符,另一側爲非單詞字符、字符串的開始或結束位置,也就相當於

(?<!/w)(?=/w)|(?<=/w)(?!/w)

思考:以下寫法爲什麼不等價於“/b”

(?<=/W)(?=/w)|(?<=/w)(?=/W)

2       /w的範圍
即然涉及到“/w”,那就要先考察一下它的範圍。

在支持ASCII碼的語言中,如JavaScript,“/w”等價於[a-zA-Z0-9_] ;

在支持Unicode的語言中,如.NET,默認情況下,“/w”除可以匹配[a-zA-Z0-9_]外,還可以匹配一些Unicode字符集,如漢字,全角數字等等。

幾乎所有常見的語言都遵循這樣一個規律,只有Java是個例外。在Java中,“/w”的表現是比較奇怪的,Java是支持Unicode的,但Java的正則中的“/w”卻是等價於[a-zA-Z0-9_]的。

先來看一下“/w”在幾種語言中匹配的例子

JavaScript

<script language="javascript">

    var str = "abc_123中文_d3=efg漢字%";

    var reg = //w+/g;

    var arr = str.match(reg);

    if(arr != null)

    {

        for(var i=0;i<arr.length;i++)

        {

            document.write(arr[i] + "<br />");

        }

    }

</script>

/*-------- JavaScript中輸出--------

abc_123

_d3

Efg

*/

C#

string test = "abc_123中文_d3=efg漢字%";

MatchCollection mc = Regex.Matches(test, @"/w+");

foreach (Match m in mc)

{

     richTextBox2.Text += m.Value + "/n";

}

/*-------- C#中輸出--------

abc_123中文_d3

efg漢字

*/

Java

String test = "abc_123中文_d3=efg漢字%";

String reg = "//w+";

Matcher m = Pattern.compile(reg).matcher(test);

while(m.find())

{

    System.out.println(m.group());

}

/*-------- Java中輸出--------

abc_123

_d3

Efg

*/

可以看到,“/w”在Java中的輸出和JavaScript中是一樣的,都是隻支持ASCII字符。

3       /b的範圍
常見語言中“/w”的範圍確定了,那麼是不是可以認爲“/b”的匹配範圍與“/w”也是一致的呢?

再看下下面的例子:

源字符串:abc_123中文_d3=漢字efg

正則表達式:./b.

JavaScript

<script language="javascript">

    var str = "abc_123中文_d3=efg漢字%";

    var reg = /./b./g;

    var arr = str.match(reg);

    if(arr != null)

    {

        for(var i=0;i<arr.length;i++)

        {

            document.write(arr[i] + "<br />");

        }

    }

</script>

/*-------- JavaScript中輸出--------

3中

文_

3=

g漢

*/

C#

string test = "abc_123中文_d3=efg漢字%";

MatchCollection mc = Regex.Matches(test, @"./b.");

foreach (Match m in mc)

{

     richTextBox2.Text += m.Value + "/n";

}

/*-------- C#中輸出--------

3=

字%

*/

Java

String test = "abc_123中文_d3=efg漢字%";

String reg = ".//b.";

Matcher m = Pattern.compile(reg).matcher(test);

while(m.find())

{

    System.out.println(m.group());

}

/*-------- Java中輸出--------

3=

字%

*/

可以看到,Java的輸出和.NET是一致的,“/b”在Java中是支持Unicode的。

所以總的來說,Java中的“/w”是很奇怪的,而“/b”是與其它語言表現一致的,在使用時需要注意。

4       /b應用場景
4.1     基礎應用
“/b”一般應用在需要匹配某一單詞字符組成的子串,但這一字符不能包含在同樣由單詞字符組成的更長的子串中。

比如要替換掉一段英文中的單詞“to”,而“today”顯然不在替換的範圍內,所以正則可以用“/bto/b”來限定。

用得比較多的場景是在HTML標籤的匹配中,用以區分相互包含的標籤,比如要過濾掉<b>、</b>、<p…>、<img…>等標籤,但要保留<br />標籤,正則可以寫成“<(/?b|p|img)/b[^>]*>”。

舉例:統計以“,”分割的元素中“3”的個數

string test = "137,1,33,4,3,6,21,3,35,93,2,98";

int count = Regex.Matches(test, @"/b3/b").Count; //結果:2

4.2     進階應用
稍複雜一些的應用通常都是與其它一些正則語法規則一起使用的,參考一個帖子 求一正則表達式

4.3     特殊情況
“/b”用在正則中,通常情況下都是表示單詞邊界的,只有在字符組中,它表示的是退格鍵,即

[a-z/b]

此處的“/b”表示的是退格鍵,而不是單詞邊界。

發佈了34 篇原創文章 · 獲贊 3 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章