正則表達式
1、使用re.findall(所有符合條件的)一般查找列表結果就是所獲得值
re.search(一條符合記錄的) 通過Match對象內的group編號或命名,獲得對應的值
title = re.research('<title>(.*?)</title>',html,re.S).group(1) //re.S 能包括換行符
使用sub(替換)實現換頁功能
2、常用符號
. :匹配任意字符,換行符\n除外
* :匹配前一個字符0個或無限多個
? :匹配前一個字符0次或1次
.* :貪心算法,儘可能長的匹配
.*? :非貪心算法,儘可能短的匹配
() :括號的數據作爲數據返回
import re
import requests
f = open('source.txt','r')
html = f.read()
f.close()
pic_url = re.findall('img src="(.*?)" class="lessoning"',html,re.S)
i=0
for each in pic_url:
pic = requests.get(each)
fp = open('pic\\'+str(i)+'.jpg','wb')
fp.write(pic.content)
fp.close()
i+=1