urllib庫和re庫
import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com') #此處爲英文圓括號
requests庫
js渲染的網頁無法用requests請求
selenium庫
可請求js渲染後的網頁
使用測試:
缺少Chromedriver,使用pip安裝失敗,
可到http://chromedriver.storage.googleapis.com/
或鏡像網站:http://npm.taobao.org/mirrors/chromedriver/77.0.3865.10/
下載
解壓後放到python安裝位置的script文件夾內
重新打開shell測試
Chromedriver安裝成功!
輸入以下命令行檢驗是否可用
from selenium import webdriver
driver = webdriver.Chrome()
自動跳出Chrome瀏覽器該頁面,證明可用
輸入命令行driver.get('http://www.baidu.com')
可自動跳轉到指定頁面,driver.page_source
顯示網頁源代碼
注意:如果不想讓瀏覽器跳出,可使用phantomjs(已停止維護,新版selenium不支持,需要下載舊版)
beautifulSoup4和openpyxl
pyquery網頁解析庫
安裝並驗證
>>> from pyquery import PyQuery as pq
>>> doc = pq('<html></html>')
>>> doc = pq('<html>zhengyuting</html>')
>>> result = doc('html').text()
>>> result
進入https://pythonhosted.org/pyquery/
查看更多pyquery語法
pandas
flask庫
代理獲取與存儲的接口
Django
直接用pip安裝即可,此處由於網絡原因一直安裝失敗,所以我用了另一種方法:
到Django官網下載安裝包,解壓到Python同級根目錄
使用以下命令:
cd Django所在目錄
python setup.py install
開始安裝
此處缺少sqlparse文件,如果不能pip就去官網下載:
在環境變量path裏添加Django路徑:
測試運行,成功!
使用pycharm時遇到庫沒有導入的問題
使用pycharm時,導入包會出現錯誤
解決方案如下:
解釋器重新配置即可