python爬蟲之正則表達式

前面介紹了2中利用工具解析HTML代碼的方式,接下來咱就介紹一下純手工解析html的方式,
正則相比於前兩種的優點很明顯,缺點也很明顯
優點:更加靈活,效率更高
缺點:容易出錯,調試時間長,

看到這裏的應該對正則都有點基本的認識了,如果一些基本的認識都沒有的話,出門自己google教程,

和前面一行,現獲取html代碼

html=urllib2.urlopen(url).read()

之後就是對獲取到的代碼進行解析了。
這裏需要用到一個標準庫re
import re 就可以了

str = r’class=”context”>(.*?)’
reg = re.compile(str)
text =re.findall(reg,html)

其中誇好包起來的部分就是需要提取出來的東西,
這裏可以理解爲標籤a的text,
前面的和後面的部分是用來匹配的,
這樣就可以很輕鬆的衝html代碼裏面獲取到我們需要的數據了,

發佈了57 篇原創文章 · 獲贊 24 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章