Python爬蟲之Selenium+PhantomJS組合

簡介

一直以來我們在使用Python的urllib2、httplib等通信框架來抓取網頁,但是涉及到JavaScript渲染的頁面卻不能抓取,所以採用Web自動化測試工具Selenium,無界面瀏覽器PhantomJS來抓取JavaScript渲染的頁面,帶我們熟悉使用後,爬蟲技能將大大提升。


  • Selenium是一個用於Web應用程序測試的工具。
  • Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。
  • Selenium支持的瀏覽器包括IE、Mozilla Firefox、Chrome等。
  • Selenium支持多種語言開發,比如 Java,Python, C,Ruby等。
    #
  • Phantom JS是一個服務器端的 JavaScript API 的 WebKit。
  • 其支持各種Web標準: DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG。
    #

首先安裝 Python 的 Selenium 庫,再安裝好 PhantomJS,就可以實現 Python+Selenium+PhantomJS 的無縫對接了嘛!PhantomJS 用來渲染解析JS,Selenium 用來驅動PhantomJS以及與 Python 的對接,Python 進行網頁後期的處理,完美的三劍客!

Win7 64位軟件環境:

  • 安裝Python 2.7
  • 安裝Python setuptool
  • 安裝Ptyhon pip
  • 安裝Selenium
    #
  • 安裝PhantomJS,切換到Python安裝目錄下Script目錄下執行命令:pip install -U selenium
  • 安裝PhantomJS,下載解壓即可

Selenium+PhantomJS示例

使用方法很簡單,代碼如下,如果成功打印出網頁的源碼,那麼說明已經可以成功使用了。

from selenium import webdriver
#
driver = webdriver.PhantomJS()
driver.get('http://wenshu.court.gov.cn/list/list/')
data = driver.page_source
print data
driver.quit()
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章