爬取網頁簡談(python)

爬取網頁第一步

首先我們需要在電腦上安裝好python,並安裝requests庫,這裏僅僅介紹如何安裝requests庫。首先我們要以== 以管理員身份運行命令行==,輸入以下代碼,並回車,靜靜等待安裝即可。

C:\WINDOWS\system32>pip install requests

安裝好後大概是這樣子:
在這裏插入圖片描述

爬取網頁第二步

安裝好requests庫之後,我們就可以運行python了,可以使用python默認的IDLE編輯器,輸入以下代碼就可以爬去一些網頁了。其中核心的方法是 r = requests.get(url)
在這裏插入圖片描述
輸入這串代碼運行之後便會將百度網頁的信息返回:
在這裏插入圖片描述
但我們看到內容中很多都是亂碼,這是我們可以看它的編碼是什麼,並將其轉換爲“utf-8”編碼,這時我們看返回來的就有一些是中文了;
code

像這樣簡單的爬取一個網頁需要遵循一定的流程:

Created with Raphaël 2.2.0導入requests庫使用get方法獲取網頁內容檢測請求是否成功使用 r.text 返回網頁內容yes

最後給出抓取淘寶網的代碼和分析:
淘寶

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章