Python學習——爬蟲常用庫

原創

2020-06-27 01:06

urllib庫和re庫

import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com') #此處爲英文圓括號

requests庫

js渲染的網頁無法用requests請求

selenium庫

可請求js渲染後的網頁
使用測試：
缺少Chromedriver，使用pip安裝失敗，
可到http://chromedriver.storage.googleapis.com/或鏡像網站：http://npm.taobao.org/mirrors/chromedriver/77.0.3865.10/下載
解壓後放到python安裝位置的script文件夾內
重新打開shell測試

Chromedriver安裝成功！
輸入以下命令行檢驗是否可用

from selenium import webdriver
driver = webdriver.Chrome()

自動跳出Chrome瀏覽器該頁面，證明可用
輸入命令行driver.get('http://www.baidu.com')可自動跳轉到指定頁面，driver.page_source顯示網頁源代碼

注意：如果不想讓瀏覽器跳出，可使用phantomjs（已停止維護，新版selenium不支持，需要下載舊版）

beautifulSoup4和openpyxl

pyquery網頁解析庫

安裝並驗證

>>> from pyquery import PyQuery as pq
>>> doc = pq('<html></html>')
>>> doc = pq('<html>zhengyuting</html>')
>>> result = doc('html').text()
>>> result

進入https://pythonhosted.org/pyquery/查看更多pyquery語法

pandas

flask庫

代理獲取與存儲的接口

Django

直接用pip安裝即可，此處由於網絡原因一直安裝失敗，所以我用了另一種方法：
到Django官網下載安裝包，解壓到Python同級根目錄
使用以下命令：

cd Django所在目錄
python setup.py install

開始安裝

此處缺少sqlparse文件，如果不能pip就去官網下載：
在環境變量path裏添加Django路徑：
測試運行，成功！

使用pycharm時遇到庫沒有導入的問題

使用pycharm時，導入包會出現錯誤
解決方案如下：
解釋器重新配置即可

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python學習——爬蟲常用庫

urllib庫和re庫

requests庫

selenium庫

beautifulSoup4和openpyxl

pyquery網頁解析庫

pandas

flask庫

Django

使用pycharm時遇到庫沒有導入的問題

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Python Turtle庫練習過程

整站開發詳細步驟

軟件設計師考點彙總——標準化和知識產權

計算機取證與司法鑑定基礎知識

Linux與Windows常用命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結