什麼是正則表達式

就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個"規則字符串"，這個"規則字符串"用來表達對字符串的一種過濾邏輯。

給定一個正則表達式和另一個字符串，我們可以達到如下的目的：

給定的字符串是否符合正則表達式的過濾邏輯（"匹配"）；

通過正則表達式，從文本字符串中獲取我們想要的特定部分（"過濾"）。

正則表達式匹配規則

模式	描述
\w	匹配字母、數字、下劃線,等價於[a-zA-Z0-9_] \w可以匹配漢字(python),
\W	匹配不是字母、數字、下劃線的其他字符
\s	匹配任意空白字符,等價於(\t\n\r\f)
\S	匹配任意非空字符
\d	匹配數字,等價於[0-9]
\D	匹配不是數字的字符
\A	匹配字符串開頭
\Z	匹配字符串結尾的,如果存在換行,只匹配到換行前的結束字符串
\z	匹配字符串結尾的,如果存在換行,匹配到換行符\n
\G	最好完成匹配的位置
\n	匹配一個換行符
\t	匹配一個製表符(tab)
^	匹配一行字符串的開頭
$	匹配一行字符串的結尾
.	匹配任意字符,除了換行符.當re.DOTALL標記被指定時,這可以匹配包括換行符在內的任字符
[…]	用來表示一組字符,比如[abc]表示匹配a或b或c,[a-z],[0-9]
[^…]	匹配不在[]裏面的字符,比如[^abc]匹配除a,b,c以外的字符
*	匹配0個或多個字符
+	匹配1個或多個字符
?	匹配0個或1個前面的正則表達式片段,(.*?)表示儘可能少地匹配字符(後面詳解)
{n}	精確匹配前面n個前面的表達式,如\d{5}表示匹配5個數字
{n,m}	匹配前面的表達式n到m次,貪婪模式
a	b
(…)	匹配括號裏的表達式,也可以表示一個組

Python 的 re 模塊

在 Python 中，我們可以使用內置的 re 模塊來使用正則表達式。

有一點需要特別注意的是，正則表達式使用對特殊字符進行轉義，所以如果我們要使用原始字符串，只需加一個 r 前綴，示例：

r'chuanzhiboke\t\.\tpython'

在python正則表達中儘可能的使用原始字符串，待匹配的字符串中看到什麼就在正則表達式寫什麼，就不會出現問題

a = 'a\nb'
print(len(a))  # 3
b = r'a\nb'
print(len(b))  # 4
# '\n'長度爲1，r'\n'長度爲2

re 模塊的一般使用步驟如下：

使用 compile() 函數將正則表達式的字符串形式編譯爲一個 Pattern 對象
通過 Pattern 對象提供的一系列方法對文本進行匹配查找，獲得匹配結果，一個 Match 對象。
最後使用 Match 對象提供的屬性和方法獲得信息，根據需要進行其他的操作

常用正則表達式的方法：

re.compile（編譯）
pattern.match（從頭找一個，一次匹配）
pattern.search（從任何位置開始找一個，一次匹配）
pattern.findall（找所有，返回列表）
finditer 方法（全部匹配，返回迭代器）
pattern.sub（替換）
pattern.split (分割字符串，返回列表)

1、compile 函數

compile 函數用於編譯正則表達式，生成一個 Pattern 對象，它的一般使用形式如下：

import re
# 將正則表達式編譯成 Pattern 對象
pattern = re.compile(r'\d+')

在上面，我們已將一個正則表達式編譯成 Pattern 對象，接下來，我們就可以利用 pattern 的一系列方法對文本進行匹配查找了。

2、match 方法

match 方法用於查找字符串的頭部（也可以指定起始位置），它是一次匹配，只要找到了一個匹配的結果就返回，而不是查找所有匹配的結果。它的一般使用形式如下：

match(string[, pos[, endpos]])

string 是待匹配的字符串；
pos 和 endpos 是可選參數，指定字符串的起始和終點位置，默認值分別是 0 和 len (字符串長度)。

當你不指定 pos 和 endpos 時，match 方法默認匹配字符串的頭部。

當匹配成功時，返回一個 Match 對象，如果沒有匹配上，則返回 None。

import re
pattern = re.compile(r'\d+')  # 用於匹配至少一個數字

m = pattern.match('one12twothree34four')  # 查找頭部，沒有匹配
print(m)
# None

m = pattern.match('one12twothree34four', 2, 10)  # 從'e'的位置開始匹配，沒有匹配
print(m)
# None

m = pattern.match('one12twothree34four', 3, 10)  # 從'1'的位置開始匹配，正好匹配
print(m)  # 返回一個 Match 對象
# <re.Match object; span=(3, 5), match='12'>

print(m.group(0))  # 可省略 0
# 12

print(m.start(0))  # 可省略 0
# 3

print(m.end(0))  # 可省略 0
# 5

print(m.span(0))  # 可省略 0
# (3, 5)

在上面，當匹配成功時返回一個 Match 對象，其中：

group([group1, ...]) 方法用於獲得一個或多個分組匹配的字符串，當要獲得整個匹配的子串時，可直接使用 group() 或 group(0)；
start([group]) 方法用於獲取分組匹配的子串在整個字符串中的起始位置（子串第一個字符的索引），參數默認值爲 0；
end([group]) 方法用於獲取分組匹配的子串在整個字符串中的結束位置（子串最後一個字符的索引+1），參數默認值爲 0；
span([group]) 方法返回 (start(group), end(group))。

再看看一個例子：

import re
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)  # re.I 表示忽略大小寫
m = pattern.match('Hello World Wide Web')

print(m)  # 匹配成功，返回一個 Match 對象
# <re.Match object; span=(0, 11), match='Hello World'>

print(m.group(0))  # 返回匹配成功的整個子串
# 'Hello World'

print(m.span(0))  # 返回匹配成功的整個子串的索引
# (0, 11)

print(m.group(1))  # 返回第一個分組匹配成功的子串
# 'Hello'

print(m.span(1))  # 返回第一個分組匹配成功的子串的索引
# (0, 5)

print(m.group(2))  # 返回第二個分組匹配成功的子串
# 'World'

print(m.span(2))  # 返回第二個分組匹配成功的子串
# (6, 11)

print(m.groups())  # 等價於 (m.group(1), m.group(2), ...)
# ('Hello', 'World')

print(m.group(3))  # 不存在第三個分組
# Traceback (most recent call last):
# IndexError: no such group

3、search 方法

search 方法用於查找字符串的任何位置，它也是一次匹配，只要找到了一個匹配的結果就返回，而不是查找所有匹配的結果，它的一般使用形式如下：

search(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可選參數，指定字符串的起始和終點位置，默認值分別是 0 和 len (字符串長度)。

當匹配成功時，返回一個 Match 對象，如果沒有匹配上，則返回 None。

讓我們看看例子：

import re
pattern = re.compile(r'\d+')

m = pattern.search('one12twothree34four')  # 這裏如果使用 match 方法則不匹配
print(m)
print(m.group())
# <re.Match object; span=(3, 5), match='12'>
# '12'

m = pattern.search('one12twothree34four', 10, 30)  # 指定字符串區間
print(m)
print(m.group())
# <re.Match object; span=(13, 15), match='34'>
# '34'

print(m.span())
# (13, 15)

再來看一個例子：

import re
pattern = re.compile(r'\d+')
m = pattern.search('hello 123456 789')    # 這裏使用 match() 無法成功匹配
if m:
    print('matching string:', m.group())  # 使用 Match 獲得分組信息
    print('position:', m.span())          # 起始位置和結束位置
# matching string: 123456
# position: (6, 12)

4、findall 方法

上面的 match 和 search 方法都是一次匹配，只要找到了一個匹配的結果就返回。然而，在大多數時候，我們需要搜索整個字符串，獲得所有匹配的結果。

findall 方法的使用形式如下：

findall(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可選參數，指定字符串的起始和終點位置，默認值分別是 0 和 len (字符串長度)。

findall 以列表形式返回全部能匹配的子串，如果沒有匹配，則返回一個空列表。

看看例子：

import re
pattern = re.compile(r'\d+')
result1 = pattern.findall('hello 123456 789')
result2 = pattern.findall('one1two2three3four4', 0, 10)
print(result1)
print(result2)
# ['123456', '789']
# ['1', '2']

再先看一個栗子：

import re
pattern = re.compile(r'\d+\.\d*')
result = pattern.findall("123.141593, 'bigcat', 232312, 3.15")
print(type(result))
# <class 'list'>
for item in result:
    print(item)
    
# 123.141593
# 3.15

5、finditer 方法

finditer 方法的行爲跟 findall 的行爲類似，也是搜索整個字符串，獲得所有匹配的結果。但它返回一個順序訪問每一個匹配結果（Match 對象）的迭代器。

看看例子：

import re
pattern = re.compile(r'\d+')

result_iter1 = pattern.finditer('hello 123456 789')
result_iter2 = pattern.finditer('one1two2three3four4', 0, 10)

print(type(result_iter1))
print(type(result_iter2))

# <class 'callable_iterator'>
# <class 'callable_iterator'>

print('result1...')
for m1 in result_iter1:  # m1 是 Match 對象
    print('matching string: {}, position: {}'.format(m1.group(), m1.span()))

# matching string: 123456, position: (6, 12)
# matching string: 789, position: (13, 16)

print('result2...')
for m2 in result_iter2:
    print('matching string: {}, position: {}'.format(m2.group(), m2.span()))

# matching string: 1, position: (3, 4)
# matching string: 2, position: (7, 8)

6、split 方法

split 方法按照能夠匹配的子串將字符串分割後返回列表，它的使用形式如下：

split(string[, maxsplit])

其中，maxsplit 用於指定最大分割次數，不指定將全部分割。

import re
p = re.compile(r'[\s\,\;]+')
print (p.split('a,b;; c   d'))
# ['a', 'b', 'c', 'd']

使用多個分隔符分隔字符串

split多個分隔符單一分隔符，使用str.split()即可
多個分隔符，複雜的分隔情況，使用re.split

（1）多個單一分隔符時，"[]"與 "|"的效果是一樣的，但是請注意使用 “|”時某些字符需要轉義

import re
line1 = "word;Word,emp?hahaha"
print(re.split(r";|,|\?", line1))  # 別忘了轉義"?"
# ['word', 'Word', 'emp', 'hahaha']
print(re.split(r"[;,?]", line1))
# ['word', 'Word', 'emp', 'hahaha']

（2）多個長短不一的的分隔符的分隔符時，就應該使用 "|"

line2 = "word;Word=+,emp? hahaha; whole, cai"
print(re.split(r";|=\+,|\?\s|;\s|,\s", line2))
# ['word', 'Word', 'emp', 'hahaha', ' whole', ' cai']

（3）更加漸變簡便的用法是

print(re.split(r"\W+", line1))
print(re.split(r"\W+", line2))

（4） “（）”則是將分隔後的結果連同分隔符均有所保留

rint(re.split(r"(\W+)", line2))
# ['word', ';', 'Word', '=+,', 'emp', '? ', 'hahaha', '; ', 'whole', ', ', 'cai']

7、sub 方法

sub 方法用於替換。它的使用形式如下：

sub(repl, string[, count])

其中，repl 可以是字符串也可以是一個函數：

如果 repl 是字符串，則會使用 repl 去替換字符串每一個匹配的子串，並返回替換後的字符串，另外，repl 還可以使用 id 的形式來引用分組，但不能使用編號 0；
如果 repl 是函數，這個方法應當只接受一個參數（Match 對象），並返回一個字符串用於替換（返回的字符串中不能再引用分組）。
count 用於指定最多替換次數，不指定時全部替換。

看看例子：

import re

p = re.compile(r'(\w+) (\w+)')  # \w = [A-Za-z0-9]
s = 'hello 123, hello 456'

print(p.sub(r'hello world', s))  # 使用 'hello world' 替換 'hello 123' 和 'hello 456'
print(p.sub(r'\2 \1', s))        # 引用分組
# hello world, hello world
# 123 hello, 456 hello


def func(m):
    print(m)
    return 'hi' + ' ' + m.group(2)  # group(0) 表示本身，group(1)表示hello，group(2) 表示後面的數字


print(p.sub(func, s))     # 多次sub，每次sub的結果傳遞給func
print(p.sub(func, s, 1))  # 最多替換一次

# <re.Match object; span=(0, 9), match='hello 123'>
# <re.Match object; span=(11, 20), match='hello 456'>
# hi 123, hi 456
# <re.Match object; span=(0, 9), match='hello 123'>
# hi 123, hello 456

8、匹配中文

在某些情況下，我們想匹配文本中的漢字，有一點需要注意的是，中文的 unicode 編碼範圍主要在 [u4e00-u9fa5]，這裏說主要是因爲這個範圍並不完整，比如沒有包括全角（中文）標點，不過，在大部分情況下，應該是夠用的。

假設現在想把字符串 title = u'你好，hello，世界' 中的中文提取出來，可以這麼做：

import re

title = '你好，hello，世界'
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = pattern.findall(title)

print(result)
# ['你好', '世界']

注意到，我們在正則表達式前面加上了兩個前綴 ur，其中 r 表示使用原始字符串，u 表示是 unicode 字符串。

注意：貪婪模式與非貪婪模式

貪婪模式：在整個表達式匹配成功的前提下，儘可能多的匹配 ( * )；
非貪婪模式：在整個表達式匹配成功的前提下，儘可能少的匹配 ( ? )；
Python裏數量詞默認是貪婪的。

示例一：源字符串：`abbbc`

使用貪婪的數量詞的正則表達式 ab* ，匹配結果： abbb。

* 決定了儘可能多匹配 b，所以a後面所有的 b 都出現了。
使用非貪婪的數量詞的正則表達式ab*?，匹配結果： a。

即使前面有 *，但是 ? 決定了儘可能少匹配 b，所以沒有 b。

示例二：源字符串：`aa<div>test1</div>bb<div>test2</div>cc`

使用貪婪的數量詞的正則表達式：<div>.*</div>
匹配結果：<div>test1</div>bb<div>test2</div>

這裏採用的是貪婪模式。在匹配到第一個"</div>"時已經可以使整個表達式匹配成功，但是由於採用的是貪婪模式，所以仍然要向右嘗試匹配，查看是否還有更長的可以成功匹配的子串。匹配到第二個"</div>"後，向右再沒有可以成功匹配的子串，匹配結束，匹配結果爲"<div>test1</div>bb<div>test2</div>"

使用非貪婪的數量詞的正則表達式：<div>.*?</div>
匹配結果：<div>test1</div>

正則表達式二採用的是非貪婪模式，在匹配到第一個"</div>"時使整個表達式匹配成功，由於採用的是非貪婪模式，所以結束匹配，不再向右嘗試，匹配結果爲"<div>test1</div>"。

正則表達式測試網址

python基礎 - 正則表達式（re模塊）

什麼是正則表達式

正則表達式匹配規則

Python 的 re 模塊

re 模塊的一般使用步驟如下：

常用正則表達式的方法：

1、compile 函數

2、match 方法

3、search 方法

4、findall 方法

5、finditer 方法

6、split 方法

使用多個分隔符分隔字符串

7、sub 方法

8、匹配中文

注意：貪婪模式與非貪婪模式

示例一：源字符串：`abbbc`

示例二：源字符串：`aa<div>test1</div>bb<div>test2</div>cc`

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

學做網絡爬蟲【五】- Scrapy（框架）

python基礎 - 正則表達式（re模塊）

學做網絡爬蟲【四】- 動態HTML

學做網絡爬蟲【六】- Scrapy-redis（分佈式）

學做網絡爬蟲【七】- 反爬蟲

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python基礎 - 正則表達式（re模塊）

什麼是正則表達式

正則表達式匹配規則

Python 的 re 模塊

re 模塊的一般使用步驟如下：

常用正則表達式的方法：

1、compile 函數

2、match 方法

3、search 方法

4、findall 方法

5、finditer 方法

6、split 方法

使用多個分隔符分隔字符串

7、sub 方法

8、匹配中文

注意：貪婪模式與非貪婪模式

示例一 ： 源字符串：abbbc

示例二 ： 源字符串：aa<div>test1</div>bb<div>test2</div>cc

示例一：源字符串：`abbbc`

示例二：源字符串：`aa<div>test1</div>bb<div>test2</div>cc`