Python- re模塊

原創

2019-06-04 12:52

> re 模塊

正則表達式（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼，然後由用 C 編寫的匹配引擎執行。

字符匹配：普通字符、元字符

1、普通字符類似精確匹配：

re.findall()第一個參數是規則，第二個參數是匹配的字符串。

2、元字符

元字符：*. ^ $ + ? { } [ ] | ( ) **

1、. 一個點號代表一個任意字符，多個代表多個。不包括換行符號（\n , \t , \r）

2、^ 開頭符號（^a :表示匹配以a開頭字符串）

3、$ 結尾符號（a$: 表示匹配以a結尾的字符串）

4、* 星號代表匹配 0到無窮次

5、+ 代表匹配 1 到無窮次

6、？代表匹配 0 到 1次

7、{} {0，1} 這樣寫代表匹配0到1次，{2，8}代表匹配2到8次

8、[] 這個中括號是 字符集 的意思。例：k[yc] 表示匹配 ky 或 kc ‘或’的意思

字符集裏面可以應用3個符號： - . ^ . \ ，除了這三個符號，其餘符號都代表是字符

加個 - 符號：

加個 ^ 符號，‘非’ 的意思：

字符集加 \ 跟元字符效果一樣，（轉義符）

**元字符之轉義符\

反斜槓後邊跟元字符去除特殊功能,比如.
反斜槓後邊跟普通字符實現特殊功能,比如\d

\d 匹配任何十進制數；它相當於類 [0-9]。
\D 匹配任何非數字字符；它相當於類 [^0-9]。
\s 匹配任何空白字符；它相當於類 [ \t\n\r\f\v]。
\S 匹配任何非空白字符；它相當於類 [^ \t\n\r\f\v]。
\w 匹配任何字母數字字符；它相當於類 [a-zA-Z0-9]。
\W 匹配任何非字母數字字符；它相當於類 [^a-zA-Z0-9]
\b 匹配一個特殊字符邊界，比如空格，&，＃等

例如使用 \b 就要使用轉義符：

匹配字符串'jfdji\ldfdsf' 裏的 i\l ,就要多加3個 \ 因爲python解釋器轉義之後傳給 re模塊，re模塊再轉義：

打印結果是兩個 \ 應該是進去兩個出來兩個。

9、| 代表或的意思。例如：an|jk ：匹配 an 字符串或 jk 字符串

10、() 括號內字符串爲整體例如： (abc) 代表匹配 abc 字符串

re模塊函數方法

re.findall('a','alfgd') #返回所有滿足匹配條件的結果,放在列表裏

re.search() # 函數會在字符串內查找模式匹配,只到找到第一個匹配然後返回一個包含匹配信息的對象,該對象可以通過調用 group()方法得到匹配的字符串,如果字符串沒有匹配，則返回 None。

re.search('(?P<組名>[a-z+])') ,可以給匹配到的數據設置組名（?P<組名>是gu固定格式）

`re.match('a','abc').group()`` 和 search一樣，不過match只從字符串開頭匹配，如果這個例子不是 a 開頭，會報錯

re.split() 分割字符串例：

上圖中分割步驟爲：
按字符串第一個a分割，因爲a左邊爲空所以得到 ' ' 和cvabjkk ，然後遇到a再分割得到 cv 和bjkk ，然後再從 b分割 b左邊爲空，變成 ' ' jkk ,然後整個加起來： ['', 'cv', '', 'jkk']

re.sub() 替換方法，有4個參數。例如 re.sub('\d','abc','adfs5dfs6',1)
上述例子第一個參數爲要被替換的字符串，第二個爲替換後的字符串，第三個爲要修改的原始字符串，第四個爲要替換多少次

re.subn('\d','abc','adfs5dfs6') 加個n可以統計被替換多少次：

re.compile（）制定匹配規則：

re.finditer() 會把匹配結果變成一個迭代器;

注意

如下圖，應該匹配出 www.baidu.com 以及www.sina.com ,顯示結果沒有匹配：

中間家裏括號（分組），會優先顯示出分組裏的內容，要取消有限權限加上？：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

重磅！Zilliz 與智源研究院聯合推出自動化多樣性信息檢索評測基準 AIR-Bench

智源研究院聯合 Zilliz、HuggingFace、中國科技大學、中國人民大學、北京郵電大學等多家機構聯合推出專門針對檢索任務和RAG場景的評測AIR-Bench。AIR-Bench首次提出在檢索評測任務中使用LLMs生產評估數

2024-05-31 21:25:07

關於Vearch在大模型中使用的一些實踐

背景這兩年來大模型及其熱門，不僅各大廠家的模型層出不窮，各類RGA、Agent應用也花樣繁多。這也帶火了一批基礎設施，比如Langchain、向量數據庫（也叫矢量數據庫-Vector Database）等。現在市場上的向量庫種類特別繁多

2024-05-28 11:56:14

向量數據庫落地實踐

一、前言本文基於京東內部向量數據庫vearch進行實踐。Vearch 是對大規模深度學習向量進行高性能相似搜索的彈性分佈式系統。詳見： https://github.com/vearch/zh_docs/blob/v3.3.X/do

2024-04-03 11:16:26

用戶案例｜向量引擎在攜程酒店搜索中的應用場景和探索

加入 Zilliz AI 初創計劃 Zilliz AI 初創計劃是面向 AI 初創企業推出的一項扶持計劃，預計提供總計 1000 萬元的 Zilliz Cloud 抵扣金，致力於幫助 AI

2024-03-15 15:54:11

Node.js 20 —— 幾個令人大開眼界的特性

前言：歡迎來到 Node.js 20 Node.js 20 已經發布，帶來了創新和激動人心的新時代。這個開創性的版本於2023年4月18日首次亮相，並將在2023年10月發佈長期支持（LTS）版本，並且將持續支持至2026年4月，下面小編就

2023-09-20 22:50:54

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安裝並引用第三方模塊及注意事項

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小記 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信號

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

python3 排序 sort sorted

排序穩定性和排序複雜度排序保證是穩定的。這意味着當多個記錄具有相同的鍵值時，將保留其原始順序。 >>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)] >

2020-07-08 12:31:35

24小時熱門文章

最新文章

最新評論文章