爬取網頁簡談（python）

原創

2019-02-08 19:47

爬取網頁第一步

首先我們需要在電腦上安裝好python，並安裝requests庫，這裏僅僅介紹如何安裝requests庫。首先我們要以== 以管理員身份運行命令行==，輸入以下代碼，並回車，靜靜等待安裝即可。

C:\WINDOWS\system32>pip install requests

安裝好後大概是這樣子：

爬取網頁第二步

安裝好requests庫之後，我們就可以運行python了，可以使用python默認的IDLE編輯器，輸入以下代碼就可以爬去一些網頁了。其中核心的方法是 r = requests.get(url)

輸入這串代碼運行之後便會將百度網頁的信息返回：

但我們看到內容中很多都是亂碼，這是我們可以看它的編碼是什麼，並將其轉換爲“utf-8”編碼，這時我們看返回來的就有一些是中文了;

像這樣簡單的爬取一個網頁需要遵循一定的流程：

最後給出抓取淘寶網的代碼和分析：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python爬蟲7】驗證碼處理

文章目錄1.獲得驗證碼圖片2.光學字符識別驗證碼3.用API處理複雜驗證碼3.1 9kw打碼平臺3.1.1 提交驗證碼3.1.2 請求已提交驗證碼結果3.1.2與註冊功能集成驗證碼（CAPTCHA）全稱爲全自動區分計算機和人類的

2020-06-25 22:50:50

【Python爬蟲9】Python網絡爬蟲實例實戰

文章目錄2.1自動化登錄Facebook2.3自動化登錄Linkedin 爬取Google真實的搜索表單爬取依賴JavaScript的網站Facebook 爬取典型在線商店Gap 爬取擁有地圖接口的寶馬官網 #1.爬Googl

2020-06-25 22:50:39

【Python爬蟲5】提取JS動態網頁數據

文章目錄1.動態網頁示例2.對加載內容進行逆向工程2.1通過開發者工具的逆向工程2.2通過墨盒測試的逆向工程2.2.1搜索條件爲空時2.2.2用`*`號匹配時2.2.2用`.`號匹配時3.渲染動態網頁3.1使用WebKit渲染引擎

2020-06-25 22:50:39

python網絡爬蟲系列（二）——ProxyHandler處理器實現代理IP

ProxyHandler處理器（代理）：很多網站會檢測某一段時間某個IP的訪問次數（通過流量統計，系統日誌等），如果訪問次數多的不像正常人，它會禁止這個lP的訪問。所以我們可以設置一些代理服務器，每隔一段時間換一個代理，就算

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（三）——cookie的原理、保存與加載

一、什麼是cookie？在網站中,http請求是無狀態的.也就是說即使第一次和服務器連接後並且登錄成功後,第二次請求服務器依然不能知道當前請求是哪個用戶。 cookie的出現就是爲了解決這個問題,第一次登錄後服務器返回一些數據(

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（一）——urllib庫（urlopen、urlretrieve、urlencode、parse-qs、urlparse和urlsplit、request.Request類）

urllib庫 urllib庫是Python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲，向指定的服務器發送一個請求，並可以保存服務器返回的數據。一、urlopen函數：在Python3的urllib庫中，所有和網絡請求相關

小小白学计算机

2020-07-06 10:33:59

Python網絡爬蟲(二十三)——Redis

概述 redis 是一種支持分佈式的非關係型數據庫，數據是保存在內存中，同時 redis 可以定時把內存數據同步到磁盤，即可以將數據持久化，並且 Redis 比 memcached 支持更多的數據結構。 redis 和 memcached

2020-07-04 17:05:22

scrapy+selenium之中國裁判文書網文書爬取

淺嘗python網絡爬蟲，略有心得。有不足之處，請多指正 url = https://wenshu.court.gov.cn/ 爬取內容：裁判文書爬取框架：scrapy框架 + selenium模擬瀏覽器訪問開始想暴力分析網頁結構

2020-07-03 17:38:16

requests.exceptions.SSLError: HTTPSConnectionPool(host='item.jd.com', port=443)

requests的get方法 import requests r = requests.get("https://item.jd.com/100004788063.html") 報錯： Traceback (most recen

2020-06-29 03:13:24

【python實現網絡爬蟲（17）】使用正則表達式爬取百度以任意關鍵詞搜索返回結果的數據

正則表達式爬取百度搜索結果1. 爬蟲架構2. 創建分頁url2.1 網頁url規律查找2.2 創建接口輸出url測試3 正則表達式匹配3.1 直接匹配源代碼3.2 配合網頁解析進行結果匹配4. 小結5. 全部代碼5.1 re +

2020-06-26 23:59:09

【python實現網絡爬蟲（12）】JSON解析之爬取騰訊新聞

目標網址：騰訊新聞，頁面如下 1. 尋找json接口在目標頁面點擊鼠標右鍵進行’檢查’，然後選擇'Network'，再點擊’網頁刷新’按鈕，接着在右下區域內彈出的內容上選擇具有pull_url標識的文件，最後點擊'Previe

2020-06-26 23:08:28

【python實現網絡爬蟲（16）】JSON網易動態新聞爬取（ajax請求爬取信息過程詳解，附全部源代碼）

1. Ajax 介紹 Ajax 即“Asynchronous Javascript And XML”（異步 JavaScript 和 XML），是指一種創建交互式、快速動態網頁應用的網頁開發技術，無需重新加載整個網頁的情況下，能夠

2020-06-26 23:08:28

安裝Scrapy框架問題解決

此篇博文參考了文章https://blog.csdn.net/m0_37886429/article/details/79445387，非常感謝詳細解答，才得以解決我的問題。在windows系統中，如果我們直接使用pip安裝Sc

2020-06-23 04:24:16

嵩天老師網絡爬蟲與信息提取課程學習筆記（三）

此文根據嵩天老師的視頻課程邊聽邊敲下來的代碼，模塊化代碼結構，將爬蟲實例的三個步驟用三個函數實現，功能見下面解釋，感謝MOOC平臺，謝謝嵩老師的精細講解，以及助教的圖文解說突破淘寶訪問限制。 #淘寶商品信息定向爬蟲 #功能描述：獲

2020-06-23 04:24:16

嵩天老師網絡爬蟲與信息提取課程學習筆記（二）

此文根據嵩天老師的視頻課程邊聽邊敲下來的代碼，模塊化代碼結構，將爬蟲實例的三個步驟用三個函數實現，思路清晰，爬蟲小白終於搞清楚指定URL爬取網頁內容的全過程了，感謝MOOC平臺，謝謝嵩老師的精細講解。 #中國大學排名爬蟲實例 #U

2020-06-23 04:24:15

24小時熱門文章

最新文章

最新評論文章