爬取網頁第一步
首先我們需要在電腦上安裝好python,並安裝requests庫,這裏僅僅介紹如何安裝requests庫。首先我們要以== 以管理員身份運行命令行==,輸入以下代碼,並回車,靜靜等待安裝即可。
C:\WINDOWS\system32>pip install requests
安裝好後大概是這樣子:
爬取網頁第二步
安裝好requests庫之後,我們就可以運行python了,可以使用python默認的IDLE編輯器,輸入以下代碼就可以爬去一些網頁了。其中核心的方法是 r = requests.get(url)
輸入這串代碼運行之後便會將百度網頁的信息返回:
但我們看到內容中很多都是亂碼,這是我們可以看它的編碼是什麼,並將其轉換爲“utf-8”編碼,這時我們看返回來的就有一些是中文了;
像這樣簡單的爬取一個網頁需要遵循一定的流程:
最後給出抓取淘寶網的代碼和分析: