Python爬取信息的方法

Python爬取網頁信息的方法

下面主要介紹兩種方法:以圖片爲例

1、使用urltrieve方法

通過urllib下載文件並在本地文件中存儲一個文件的副本,可以使用urltrieve。urltrieve用法是urltrieve(url,filename),url爲URL地址,filename爲所存儲的本地文件名,順帶提及一點urltrieve返回一個元組(filename,headers);

 

import urllib
import urllib2
import os
url = 'http://210.42.121.241//servlet/GenImg'
output = 'GenImg.jpg')
urllib.urlretrieve(url,output)


 

2、使用文件寫入方法

函數urlopen提供一個能從中讀取數據的類對象文件,通過讀取對象文件的信息,並將其寫入本地文件即可。因爲所有的文件都可以看作是二進制文件,因此以二進制文件寫入,可以保持文件正確性;具體過程如下:

 

import urllib
import urllib2
import os
url = 'http://210.42.121.241//servlet/GenImg'   #武漢大學選課系統驗證碼地址
fp=open('GenImg.jpg','wb')
response = urllib2.urlopen(url)
html = response.read()
fp.write(html)
fp.close()

 

3、本博文主要以爬取驗證碼信息

這也是大多數爬取網頁信息的方法,爬取其他網頁信息與本例幾乎相同,具體過程完全以這個爲基準,中間加入一些異常處理,正則表達式匹配等即可通過以上兩種方法獲取所需網頁信息。

發佈了17 篇原創文章 · 獲贊 0 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章