這部分跟的課是前段時間沒有電腦使用平板及紙筆記得,所以主要的目的是爲了將紙質筆記轉爲電子版,加上適當的練習,配合回顧,爭取把數據分析知識基礎過一遍,能夠掌握最好。
第五章 正則表達式的使用
正則表達式是指專門用於描述或刻畫字符串內在規律的表達式
使用場景:
查 - 無法通過切片將字符串的子串返回
替 - 藉助replace方法無法完成非固定值或非固定位置值的替換
割 - 藉助於split方法無法按照多種值實現字符串的分割
幾個字符串函數
①
②
③
可以看到我的筆記更針對於簡便的指示,具體說明參考老師的講義截圖,如上:
常用的正則符號
還有其他的:
紙質筆記上的對於同類型的歸納較爲簡潔,可以看得明顯:
這裏還有圓括號及問號星號等,這裏就整理到這裏,今天太晚了。
小學生需要深夜補作業,難道,大學生就不需要嗎?筆記接上。2020 03 07 14:13蓋爪~
上面部分列舉到英文狀態下的中括號,爲避免因爲重複聽課又或者僅放截圖讓讀者誤以爲我是個懶漢!所以這裏把紙質筆記po一下,除了當時速記爲了便利,筆記較爲簡潔以外,還有放到一塊便於記憶。
其中,符號都是英文狀態下的,可以再過濾一遍:
- ( ) - 提取括號內的內容
- ? -次數匹配 前面一個字符 0或1 次
- + -匹配前面一個字符 1或以上 次
- * -匹配前一個字符 0或以上 次
- { } -匹配前一個字符特定的次數或範圍 {m} 匹配m次; {,n}至多n次;{m,}至多m次;{m,n}m~n次
練習八(Ex8)是將字符中所有天氣狀態取出來,主要的匹配語句爲:
re.findall("tianqi:(.*?)",string)
其中 .*? ?-非貪婪式搜索
Ex9.是在一串字符中取出所有含"o"的字母單詞
關鍵匹配語句爲:
re.findall("\w*o\w*",string2,flag2=re.I)
標點符號及字母數字
re.sub('[,。、a-zA-Z0-9()]',strings)
分割內容
split = re.split('[-\|\n]',string4)
splip_strip = [i.strip() for i in split]
這部分就結束了,下部分是自定義函數的介紹和網絡爬蟲的實踐。
初心不改!刻意練習,每日精進。