接觸了python後,爬蟲是必不可少的。正則表達式是我們處理爬蟲數據,解析HTML數據的重要工具。由於正則表達式十分複雜,這讓初學者常常感到頭痛。我在查找了大量資料後,發現 畢來生 總結的正則表達式的學習十分適合像我這樣的初學者。因此,在本文我重現了regex(正則表達式)的常用方法。如下:
包括的內容:
1 re.match()
2 group()
3 .*? 通用匹配符,貪婪與非貪婪匹配
4 re.search()
5 re.findall()
6 re.sub()
7 re.compile()
8 匹配結果保存到txt,csv。(利用pandas庫在代碼 167 行)
此外我還有個問題:pandas在控制檯輸出的信息列是不對齊的,請問怎麼使用format()方法對齊。
如圖所示:
歡迎在https://blog.csdn.net/qq_36090423 交流。
以上所有源碼在createRegex.py,已上傳至 https://download.csdn.net/download/qq_36090423/10544386
另外附錄正則表達的語法規範。