正則基礎教程一些冷門的知識

原創

2020-06-14 22:32

正則基礎教程一些冷門的知識
正則引擎
正則分幾種引擎也從是本書獲得的知識點之一。
DFA
傳統型NFA
POSIX NFA
NFA範圍更廣，例如 JAVA, PHP, Ruby, .NET… 你是看不起我javascript所以纔不列入的嗎？
使用DFA的是flex, MySQL, lex, awk大部分版本… 實話說，除了mysql，都沒聽過。不過不用在意！

兩個引擎的區：
NFA 更注重表達式
DFA 文本主導
　　通過書中裏例子說，NFA 用表達式來匹配文本，而 DFA 是文本來匹配文表達式。當寫好一個正則之後，NFA 是先檢查表達式，同時檢查文本是否匹配這個表達式。而 DFA 則是先掃描文本，然後處理表達式中的所有匹配可能，如果匹配失敗，就將這條可能的線，淘汰。所以這裏衍生一個概念就是回溯，NFA 有回溯，而 DFA 沒有。

知識點
　　作爲一個菜鳥，正則表達式一直是書到用時方恨少的角色。平時都是能抄則抄，不能抄的時候乾着急，只能用 substr, indexOf, chatAt等等的方法實現功能，既不優雅也不夠裝逼。上網學習也都是菜鳥教程，W3school。然後下面說一下以上兩個基礎教程裏沒說到的知識點。

括號捕獲與反向引用
　　當你在正則表達式裏使用了 ()，在表達式匹配時，它能記住或者說緩存括號內匹配的結果，從而可以拿到括號內的結果，可以重複使用或者只需要括號內的結果，來剔除不需要的匹配內容。

// 我們經常會用 match 方法來匹配字符串，結果是一個數組，而不是最後的匹配結果，爲什麼呢？看下面的例子
“abc”.match(/(a)(b)©/) // [“abc”, “a”, “b”, “c”]
“abc”.match(/abc/) // [“abc”]
　　可以看到，括號會緩存括號裏匹配的內容，單獨列出來，那麼怎麼拿到括號內的內容呢，而不是通過 match 返回的結果拿，因爲有時候我們需要在表達式裏使用捕獲的值，從而達到匹配重複的內容。這部分就叫反向引用。

“abc-abc-cba”.replace(/(a)(b)c-\1\2/, ‘’) // c-cba
“abc-abc-cba”.replace(/(a)(b)c/g, ‘$1$2’) // ab-ab-cba
RegExp.$1 // a
RegExp.$2 // b
　　這裏展示了兩種使用反向引用的方法，一種是在表達式內通過 \1\2 的形式拿到兩個緩存的值，一種是使用 $1$2的形式拿到。因爲正則是從左開始匹配的，所以 (a) 就是第一個捕獲的匹配值，所以他是\1 或是 $1，以此類推。

非捕獲型括號
　　上面說了括號會捕獲值，一般來說這樣會影響性能，或者你會用到括號來做分組，但是不想捕獲的情況，(?:)非捕獲型括號就是這麼用的，那麼重寫一下上面的例子。

“abc-abc-cba”.replace(/(a)(?:b)c-\1\2/, ‘’) // 匹配失敗了，因爲\2不存在
“abc-abc-cba”.replace(/(a)(?:b)c-\1/, ‘’) // bc-cba
RegExp.$1 // a
RegExp.$2 // “”
　　環視

類型正則表達式
肯定逆序環視 ?<=
否定逆序環視 ?<!
肯定順序環視 ?=
否定順序環視 ?!
　　?= 和 ?! 在菜鳥和w3school 裏有簡單的提及，菜鳥裏還提到這兩個還能重寫捕獲，但是 ?<= 和 ?<! 並沒有提及。

寫幾個 demo 表示一下：

// 找一個字母 a ，它緊跟在 b 前面
“abac”.replace(/a(?=b)/g, ‘’) // bac

// 找到一個字母 a ，它緊跟在一個不是 b 的字母前面
“abac”.replace(/a(?!b)/g, ‘’) // abc

// 接着是逆序環視
// 找到一個字母 a ，它跟在 b 後面
“abac”.replace(/(?<=b)a/g, ‘’) // abc

// 找到一個字母 a ，他不跟在 b 後面
“abac”.replace(/(?<!b)a/g, ‘’) // bac

// 一個有趣匹配
// 在 a 和 b 之間插入一個 “，”
“abac”.replace(/(?<=a)(?=b)/g, “，”) // a，bac
　　可以看出，環視是要和捕獲括號一起用的，並且不會佔用匹配字符，他只是檢查表達式是否匹配。所以這就是重寫捕獲了。

忽略優先量詞
　　量詞匹配一般有三種 *、 +、?。然而還可以寫作， *? 或 +? ，使匹配結果導向完全不同的結果。例子：

“abc-aaa-abc-abc”.replace(/abc-.*-abc/, ‘’) // “”

“abc-aaa-abc-abc”.replace(/abc-.*?-abc/, ‘’) // “-abc”
　　*? 忽略優先會先忽略當前匹配的值，先匹配後面的 -abc，如果匹配失敗，再匹配自己，而 *會優先匹配自己，等匹配結束之後，再從後面一點點吐出，回來匹配量詞後面的表達式。從而造成以上不同的結果。知道這個之後，就不會再傻傻的把 * 和 ? 分開解讀了。當然，具體情況具體分析，到底使用哪個。

回溯
回溯應該算是正則裏的性能殺手了吧。如果表達式寫的不好，造成過度的災難性回溯，會導致執行時間指數級增長。

喜歡這樣文章的可以關注我，我會持續更新，你們的關注是我更新的動力！需要更多java學習資料的也可以私信我！
祝關注我的人都：身體健康，財源廣進，福如東海,壽比南山，早生貴子，從不掉髮!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

正則基礎教程一些冷門的知識

正則基礎教程一些冷門的知識

用Java編寫計算器，代碼展示！

Java小項目之：教你做電子日曆！

Java中AES的加密解密算法（項目中可以直接使用）

軟帝學院教你jdbc連接sql server數據庫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結