簡易文本爬蟲

正則表達式

1、使用re.findall(所有符合條件的)一般查找列表結果就是所獲得值

         re.search(一條符合記錄的)  通過Match對象內的group編號或命名,獲得對應的值

    title = re.research('<title>(.*?)</title>',html,re.S).group(1)    //re.S  能包括換行符

    使用sub(替換)實現換頁功能

2、常用符號

      .   :匹配任意字符,換行符\n除外

     *   :匹配前一個字符0個或無限多個

    ?   :匹配前一個字符0次或1次

    .*   :貪心算法,儘可能長的匹配

    .*?   :非貪心算法,儘可能短的匹配

   ()   :括號的數據作爲數據返回





import re

import requests


f = open('source.txt','r')

html = f.read()

f.close()


pic_url = re.findall('img src="(.*?)" class="lessoning"',html,re.S)


i=0

for each in pic_url:

       pic = requests.get(each)

      fp = open('pic\\'+str(i)+'.jpg','wb')

     fp.write(pic.content)

      fp.close()

      i+=1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章