Python爬蟲學習 7 —— 正則表達式

原創

我有两颗糖

2019-08-28 17:44

當我們從HTML text中提取信息時，可以發現很多信息都是有規律的，比如我們要獲得網頁鏈接url、提取網頁中的IP、查詢具有某種規律的字符串。正則表達式就是用於匹配具有某種規律的字符串而產生的，換句話說，正則表達式就是記錄文本規則的代碼。

一、正則表達式介紹

正則表達式：regular expression (RE)
正則表達式是用來簡介表達一組字符串的表達式。

用途：表達文本類型的特徵、同時查找替換一組字符串、匹配字符串的部分或全部

二、正則表達式語法

常用的元字符：匹配數字、英文字母、空格等字符

字符	描述
.	匹配除換行符外的任意字符
\w	匹配字母、數字、下劃線或漢字，等價於[A-Za-z0-9]
\s	匹配任意的空白符(space)
\d	匹配數字(digit)
\b	匹配字符串的開始或結束
^	匹配字符串的開始
$	匹配字符串的結束

常用的限定符：指定重複次數

語法	描述
?	前一字符0次/1次重複
+	前一字符1次或多次重複
*	前一字符任意次數重複
{n}	擴展前一字符n次
{n, }	擴展前一字符n次或更多次
{m, n}	擴展前一字符m 到 n次

常用反義代碼：排除某些字符

語法	描述
\W	匹配非字母、數字、下劃線或漢字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非數字的字符
\B	匹配非單詞開否/結尾的位置
[^x]	匹配除了x意外的字符
[^abc]	匹配非a非b非c的單個字符

其他常用的操作符

操作符	描述
\	轉義字符，如\匹配，\\匹配\
[]	字符集，對某個字符給出取值範圍
\|	左右表達式任意一個 abc\|cba 表示abc或cba
()	分組標記，內部只能有 \|

貪婪匹配與最小匹配：
貪婪：正則表達式儘可能匹配更多的字符，如：用a.b匹配aabab將得到aabab
懶惰：需要儘可能少的匹配，可以在它後面加上一個問號?。如：用a.?b取匹配aabab得到aab

語法	描述
*?	重複若以此，但儘可能少重複
+?	重複1次或更多次，但儘可能少重複
??	重複0或1次，但儘可能少重複
{n, m}?	重複n到m次，但儘可能少重複
{n, }?	重複n次以上，但儘可能少重複

三、正則表達式運算符的優先級

正則表達式從左到右進行運算，並遵循優先級順序。不同優先級運算時先高後低。

運算符優先級表

運算符	描述
\	轉義符
(), (?: ), (?=), []	圓括號與方括號
*, +, ?, {n}, {n, m}	限定符
^, $, \如何元字符、如何字符	位置和字符匹配
\|	或操作

四、正則表達式舉例

easy：

RE	strings
python+	“python”, “pythonn” “pythonnn”…
py[th]on	“pyton”, “pyhon”
py[^t]?hon	“pyhon”, “pyahon”, “pybhon”…
py{:2}thon	“pthon”, “pyhon”, “pyython”

complex：

RE	strings
2[0-4]\d	匹配數字字符串200-249
^[A-Za-z]+&	英文字母字符串
^-?\d+&	整數字符串（正負數）
^[1-9][1-9]*$	正整數字符串
[\u4e00-\u9fa5]	匹配中文字符
\d{3}-\d{8}\|\d{4}-\d{7}	電話號碼：0731-6666666

第七篇python爬蟲學習筆記完結啦 cheers 🍻🍻
ps：正則表達式30分鐘入門
參考內容：https://www.bilibili.com/video/av9784617/?p=39

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ASP正則表達式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

【Python】正則表達式快速入門（re模塊的使用）【轉載】

原文鏈接：https://morvanzhou.github.io/tutorials/python-basic/basic/13-10-regular-expression/ 一、簡單的匹配正則表達式無非就是在做這麼一回事

2020-07-08 09:13:34

知道這 20 個正則表達式，能讓你少寫 1,000 行代碼

http://www.runoob.com/regexp/regexp-syntax.html 正則表達式，一個十分古老而又強大的文本處理工具，僅僅用一段非常簡短的表達式語句，便能夠快速實現一個非常複雜的業務邏輯。熟練地掌握正則表

哈哈金馆长

2020-07-08 11:36:23

re.S、re.I、re.M

re.S (使 . 匹配包括換行在內的所有字符) re.I(不區分大小寫) re.M(多行匹配) ^只匹配字符串的開頭，$只匹配字符串結尾，.不匹配換行符. re.S做的事情是: 讓.也匹配換行符 re.M做的事情是: 讓^匹配每行

2020-07-08 11:16:26

【Python】正則表達式中的貪婪匹配與非貪婪匹配

前言 . :匹配除 “\n” 之外的任何單個字符 *：匹配0個或多個字符 .*：匹配任意長度的任意字符貪婪匹配 import re regex = ".*(b+).*" string = "abbbba" res = r

2020-07-08 09:13:31

oracle 模糊查詢不區分大小寫 regexp_like

regexp_like(source_string ,pattern ) regexp_like(source_string ,pattern ,match_parameter ) source_string is a chara

2020-07-08 05:10:03

learning perl(四) 正則表達式

perl 的核心，也是最重要的一點就是正則表達式了，也叫做模式，是一個匹配字符串的模板。有了它，可以更好地處理文本。 1）簡易模式。的使用簡單正則表達式，其實就是對字符串進行匹配。比如這樣： while (<>) { chomp; i

冬瓜排骨汤

2020-07-08 03:33:23

正則表達式貪婪與非貪婪的回溯

先推一個不錯的js正則表達式在線資源：http://www.jb51.net/tools/zhengze.html。概念不提，看例子：貪婪： var re=/<script>.+<\/script>/g; jsstr = "<

2020-07-08 01:54:09

距離弄懂正則的環視，你只差這一篇文章

上一篇文章《正則表達式匹配素數的原理講解》寫完之後，一些同學給我留言說對於正則表達式的環視不是很理解；希望我能夠講解一下關於環視部分的內容。那麼這篇文章的目的就是幫助大家理解什麼是環視，環視有什麼作用，以及在實際的開發中的一些例

梧桐雨柳絮风

2020-07-07 23:54:23

網頁編程相關

事件源對象 event.srcElement.tagName event.srcElement.type 捕獲釋放 event.srcElement.setCapture(); event.srcElement.releaseCaptu

2020-07-07 22:04:37

正則表達式控制QLineEdit輸入

1.使用正則表達式檢驗QLineEdit的輸入範圍(代碼如下): #include <qvalidator.h> #include <qlineedit.h> QLineEdit *lineEdit = new QLineEdit(t

2020-07-07 20:58:30

新io與舊io文件複製

package file; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileIn

2020-07-07 19:52:52

AS3中的正則表達式

AS3 中的正則表達式一、定義方式，可以有兩種 var pattern1:RegExp = new RegExp( " test-\\d " , " i " ); var pattern2:RegExp =

2020-07-07 17:30:57

TestNG 二測試組

一、測試組 TestNG 允許你將測試方法歸類爲不同的組。不僅僅是可以聲明某個方法屬於某個組，而且還可以讓組包含其他的組。這樣TestNG可以調用或者請求包含一組特定的組（或者正則表達式）而排除其他不需要組的集合。這樣，如果你打算將測

2020-07-07 16:04:01

讀取串口過來的GPS信息並分析其中內容

考察C程序員是否合格的一個重要標準就是看他操作字符串的能力，一個合格的C程序員應該可以熟練的對字符串進行拆分、組合、格式轉換以及搜索定位，從一堆

2020-07-07 15:30:02

24小時熱門文章

最新文章

最新評論文章