【數據分析與挖掘】數據分析學習及跟課學習 | csdn_Part 03 編程部分 上篇

這部分跟的課是前段時間沒有電腦使用平板及紙筆記得,所以主要的目的是爲了將紙質筆記轉爲電子版,加上適當的練習,配合回顧,爭取把數據分析知識基礎過一遍,能夠掌握最好。

第五章 正則表達式的使用

正則表達式是指專門用於描述或刻畫字符串內在規律的表達式

使用場景:

查 - 無法通過切片將字符串的子串返回

替 - 藉助replace方法無法完成非固定值或非固定位置值的替換

割 - 藉助於split方法無法按照多種值實現字符串的分割

幾個字符串函數

 可以看到我的筆記更針對於簡便的指示,具體說明參考老師的講義截圖,如上:

常用的正則符號 

 還有其他的:

 紙質筆記上的對於同類型的歸納較爲簡潔,可以看得明顯:

這裏還有圓括號及問號星號等,這裏就整理到這裏,今天太晚了。 


小學生需要深夜補作業,難道,大學生就不需要嗎?筆記接上。2020 03 07 14:13蓋爪~

上面部分列舉到英文狀態下的中括號,爲避免因爲重複聽課又或者僅放截圖讓讀者誤以爲我是個懶漢!所以這裏把紙質筆記po一下,除了當時速記爲了便利,筆記較爲簡潔以外,還有放到一塊便於記憶。

 其中,符號都是英文狀態下的,可以再過濾一遍:

  •       ( )  - 提取括號內的內容
  •       ?    -次數匹配 前面一個字符 0或1 次
  •       +   -匹配前面一個字符 1或以上 次
  •       *    -匹配前一個字符 0或以上 次
  •      { }   -匹配前一個字符特定的次數或範圍 {m} 匹配m次; {,n}至多n次;{m,}至多m次;{m,n}m~n次

練習八(Ex8)是將字符中所有天氣狀態取出來,主要的匹配語句爲:

re.findall("tianqi:(.*?)",string)

其中 .*?  ?-非貪婪式搜索

Ex9.是在一串字符中取出所有含"o"的字母單詞

關鍵匹配語句爲:

re.findall("\w*o\w*",string2,flag2=re.I)

標點符號及字母數字

re.sub('[,。、a-zA-Z0-9()]',strings)

分割內容

split = re.split('[-\|\n]',string4)
splip_strip = [i.strip() for i in split]

 這部分就結束了,下部分是自定義函數的介紹和網絡爬蟲的實踐。

初心不改!刻意練習,每日精進。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章