前面介紹了2中利用工具解析HTML代碼的方式,接下來咱就介紹一下純手工解析html的方式,
正則相比於前兩種的優點很明顯,缺點也很明顯
優點:更加靈活,效率更高
缺點:容易出錯,調試時間長,
看到這裏的應該對正則都有點基本的認識了,如果一些基本的認識都沒有的話,出門自己google教程,
和前面一行,現獲取html代碼
html=urllib2.urlopen(url).read()
之後就是對獲取到的代碼進行解析了。
這裏需要用到一個標準庫re
import re 就可以了
str = r’class=”context”>(.*?)’
reg = re.compile(str)
text =re.findall(reg,html)
其中誇好包起來的部分就是需要提取出來的東西,
這裏可以理解爲標籤a的text,
前面的和後面的部分是用來匹配的,
這樣就可以很輕鬆的衝html代碼裏面獲取到我們需要的數據了,