Python學習——爬蟲常用庫

urllib庫和re庫

import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com') #此處爲英文圓括號


在這裏插入圖片描述

requests庫

在這裏插入圖片描述
js渲染的網頁無法用requests請求

selenium庫

在這裏插入圖片描述
可請求js渲染後的網頁
使用測試:在這裏插入圖片描述
缺少Chromedriver,使用pip安裝失敗,在這裏插入圖片描述
可到http://chromedriver.storage.googleapis.com/或鏡像網站:http://npm.taobao.org/mirrors/chromedriver/77.0.3865.10/下載
解壓後放到python安裝位置的script文件夾內
重新打開shell測試
在這裏插入圖片描述
Chromedriver安裝成功!
輸入以下命令行檢驗是否可用

from selenium import webdriver
driver = webdriver.Chrome()

在這裏插入圖片描述
自動跳出Chrome瀏覽器該頁面,證明可用
輸入命令行driver.get('http://www.baidu.com')可自動跳轉到指定頁面,driver.page_source顯示網頁源代碼在這裏插入圖片描述
在這裏插入圖片描述
注意:如果不想讓瀏覽器跳出,可使用phantomjs(已停止維護,新版selenium不支持,需要下載舊版)

beautifulSoup4和openpyxl

在這裏插入圖片描述
在這裏插入圖片描述

pyquery網頁解析庫

安裝並驗證

>>> from pyquery import PyQuery as pq
>>> doc = pq('<html></html>')
>>> doc = pq('<html>zhengyuting</html>')
>>> result = doc('html').text()
>>> result

在這裏插入圖片描述
在這裏插入圖片描述
進入https://pythonhosted.org/pyquery/查看更多pyquery語法

pandas

在這裏插入圖片描述

flask庫

代理獲取與存儲的接口
在這裏插入圖片描述

Django

直接用pip安裝即可,此處由於網絡原因一直安裝失敗,所以我用了另一種方法:
到Django官網下載安裝包,解壓到Python同級根目錄
使用以下命令:

cd Django所在目錄
python setup.py install

開始安裝
在這裏插入圖片描述
在這裏插入圖片描述
此處缺少sqlparse文件,如果不能pip就去官網下載:
在環境變量path裏添加Django路徑:在這裏插入圖片描述
測試運行,成功!
在這裏插入圖片描述

使用pycharm時遇到庫沒有導入的問題

使用pycharm時,導入包會出現錯誤
解決方案如下:
解釋器重新配置即可
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章