python之正則表達式的學習

  接觸了python後,爬蟲是必不可少的。正則表達式是我們處理爬蟲數據,解析HTML數據的重要工具。由於正則表達式十分複雜,這讓初學者常常感到頭痛。我在查找了大量資料後,發現 畢來生 總結的正則表達式的學習十分適合像我這樣的初學者。因此,在本文我重現了regex(正則表達式)的常用方法。如下:

包括的內容:
1  re.match()
2  group()
3  .*?  通用匹配符,貪婪與非貪婪匹配
4  re.search()
5  re.findall()
6  re.sub()
7  re.compile()
匹配結果保存到txtcsv。(利用pandas庫在代碼 167 行)

 

此外我還有個問題:pandas在控制檯輸出的信息列是不對齊的,請問怎麼使用format()方法對齊。

如圖所示:

歡迎在https://blog.csdn.net/qq_36090423 交流。

以上所有源碼在createRegex.py,已上傳至 https://download.csdn.net/download/qq_36090423/10544386

另外附錄正則表達的語法規範。

      

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章