正則表達式及php中的正則函數


正則表達式 (regular expression), 常簡寫爲 regex, 用於在字符串中進行比較複雜的匹配

perl 和 ereg

現有兩種類型的正則表達式 perl 和 POSIX, perl 類型 更規範,執行效率越高, POSIX 類型常用於 Unix

php 提供了兩套正則表達式函數庫

preg_ 系列以 perl 爲基礎

ereg_ 系列以 POSIX 爲基礎

preg_ 系列更常用,ereg_ 將要被淘汰


原子

基本字符

ASCII碼中,除了下面要介紹的字符之外的,所有字符。基本字符與下面要介紹的各種特殊字符與模式結合使用,就形成了所謂的正則表達式。

單元符號 ()

圓括號中的基本字符在匹配時被看做一個整體。

正則匹配
(abc)abc

該整體會保存在內存中,可作爲整體獲取,例如 "/go(abc)g\\1le/" 可以匹配 goabcgabcle, \\1 對應了 abc。

這種方法可用於匹配不同格式的日期 "/2014(.*)06\1(13)/" 可匹配 2014/06/13 或 2014-06-13 , 但不可匹配 2014-06/13 。這裏 \\1(13) 如不加括號會被認爲內存中的第 113 號。

也可以用模式修飾符 x 實現 "/2014(.*)06\1 13/x",

原子表 []

與單元符號相反,原子表用於匹配其中的中任意一個原子。

正則匹配
[abc]a 或 b 或 c

原子表中 x-y 匹配 x 到 y 範圍內的字符, 常見用法如下

正則匹配
[0-9]所有數字
[a-z]所有小寫字母
[A-z]所有大寫字母
[a-zA-z]所有字母

需要注意的是 ^ 符號在原子表中表示排除,而在元字符中表示開頭

正則匹配
[^abc]除了abc外的字符
[^0-9]所有 數字

轉義字符

轉義字符就是一些常用原子表表達式的簡寫

轉義字符匹配原子表表示
\d所有數字[0-9]
\D除所有數字外[^0-9]
\w所有字母加數字加下劃線[a-zA-Z0-9_]
\W除字母數字下劃線之外的字符[^a-zA-Z0-9_]
\s匹配空白(Tab,空格,換頁,換行)[\f\v\t\r\n]
\S匹配非空白[^\f\v\t\r\n]

元字符 metacharacter

字符匹配
.匹配除換行符以外的任意字符
*匹配前一個內容的0次或1次或多次
+匹配前一個內容的1次或多次
?匹配0次或1次
|邏輯符 “或”
^匹配字符串首部內容,加在原子前, 例如 ^abc
$匹配字符串尾部部內容, 加在原子後, 例如 abc$
\b通過邊界匹配單詞,邊界爲空格或特殊符號, \bis\b 用於匹配 is 單詞
\B通過邊界匹配單詞以外內容
{m}匹配前一個內容的m次
{m,}匹配前一個內容的大於等於m次
{m,n}匹配前一個內容的m到n次

運算順序

從高到底

  • ()

  • * ? + {}

  • ^ $ \b

  • |

  • 基本字符


模式修飾符

模式修飾符在正則之外使用,格式爲 /正則/U , U 代表模式修飾符

修飾符用法
i匹配時不區分大小寫 (默認區分)
m匹配首內容和尾內容時採用多行識別(默認^和$匹配整個段落的開頭和結尾,加了m之後變爲行首和行尾)
s將回車轉義取消,這樣 .* 就可以匹配所有內容
x忽略正則表達式中的空白
A強制從段落頭開始匹配 "/xxx/mA" 相當於沒有加 m
D強制從段落尾開始匹配 (此外,由於默認 $ 會從行尾的 \n 之前開始匹配,D還用來在尾部從 \n 開始)
U禁止貪婪匹配,匹配到第一個符合條件的部分就停止,常用於採集程序

正則表達式應用

用途正則表達式
判斷email地址^[a-zA-Z0-9_-.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$
判斷日期[0-9]{2-4}(.*)[0-9]{0,2}\\1[0-9]{0,2}
非負整數(正整數+0)^[0-9]+$
正整數^[0-9]*[1-9]+[0-9]*$
非正整數(負整數+0)^(-[1-9]+|(0))$
負整數^-[0-9]+$

PHP preg_ 系列函數

preg_match

執行一個正則表達式匹配,沒什麼可多說的,例子如下

$subject = "標題: {title}<br>作者: {author}<br>內容: {con}";

$pattern = ("/{(.*)}/U");

preg_match($pattern, $subject, $matches);

print_r($matches);

輸出

Array ( [0] => {title} [1] => title )

這裏只匹配了一個就停止了是因爲我們加了模式修飾符 U

preg_match_all

與 preg_match 的區別在於,preg_match_all 在第一個匹配找到後,從結束位置繼續進行搜索,使用相同的目標字符和正則表達式

$subject = "標題: {title}<br>作者: {author}<br>內容: {con}";

$pattern = ("/{(.*)}/U");

preg_match_all($pattern, $subject, $matches);

print_r($matches);

輸出結果如下

Array
(
    [0] => Array
        (
            [0] => {title}
            [1] => {author}
            [2] => {con}
        )

    [1] => Array
        (
            [0] => title
            [1] => author
            [2] => con
        )

)

preg_replace

用給定內容替換正則表達式匹配的內容,並返回修改後的字符串,以下是一個實現非常簡單的類 smarty 模板例子

$subject = "標題: {title}<br>作者: {author}<br>內容: {con}";

$pattern = array("/{title}/", "/{author}/", "/{con}/");

$replacement = array("Myregex", "gipanda", "simplesmarty");

echo preg_replace($pattern, $replacement, $subject);

輸出

標題: Myregex
作者: gipanda
內容: simplesmarty

preg_replace 與 e 模式修正符

模式修正符 e 用於執行 replacement 中的內容

$subject = "test <font color=red>a</font> test";

$pattern = ("/(a)/e");

echo preg_replace($pattern, "md5('\\1')", $subject);

輸出

test 0cc175b9c0f1b6a831c399e269772661 test

不加模式修正符 e 會輸出

test md5('a') test

md5() 沒有被當做函數執行

preg_split

按給定正則(一般式原子表)分割字符串




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章