初探爬蟲：xpath提取信息，爬取頁面小案例

原創

高羊羊羊羊羊杨

2020-02-22 11:14

初探爬蟲：xpath提取信息，爬取頁面小案例

一、準備階段
相關技術與庫

requests
lxml
正則表達式
Google chrome
xpath插件
1、實驗中的小問題：xpath語法有瑕疵，提取信息時定位不明確，還需要多多應用。
2、在提取到標籤信息後，將文本按照想要的格式輸出時達不到預期效果，無法爬取對應的圖片url

二、實驗階段
首先引入本次實驗所需要的包

將寫好的download函數引入，其作用是模擬瀏覽器訪問（這裏我們添加了try使download函數看起來更加完美）並拿到對應的html

然後開始最重要的一步：對頁面進行解析，重點利用xpath插件對頁面進行解析

很顯然我們成功了！但是我們對提取出來的格式並不滿意，這裏我們利用簡單的循環嵌套來整理一下拿到的信息：

整理後：

讓我們來和要爬取的頁面對比一下：

ok！解決~

三、實驗心得
最重要的就是解析頁面時候不能着急，要耐心的通過xpath插件測試提取的信息，遇到問題靜下心來通過百度、詢問老師或者是檢查代碼語法來對程序進行調試。

高羊羊羊羊羊楊

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 2188

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬蟲實戰，基於Python爬蟲的模擬訪問csdn博主博客，增加CSDN訪客量

初衷 1.增加本人csdncsdncsdn訪問量（滑稽） 2.當作一個PythonPythonPython的練手項目 3.讓更多的人瞭解到寫博客不是爲了訪客量，而是寫出更優質的博客技術文章。（理直氣壯）思路隨機heade

2020-07-05 22:36:21

scraoy 安裝撞坑

網上查了下有人說升級 pip 和 setuptools python -m pip install --upgrade setuptools python -m pip install --upgrade pip 我升級後第一個問

2020-07-01 02:52:13

爬蟲：Python下載html保存成pdf——以下載知乎下某個專欄下所有文章爲例

原文地址分類目錄——萬能的Python系列分類目錄——爬蟲系列首先，需要下載安裝支持工具 wkhtmltopdf wkhtmltopdf官網下載地址安裝完成後將其下bin目錄的絕對路徑追加到環境變量中之前 i

2020-06-27 23:31:17

爬蟲: 多進程分佈式數據爬取

原文地址分類目錄——爬蟲多進程的使用可以參見分類目錄——多進程，這裏就直接操作不在進行過多的說明這裏以把我的CSDN上的20條博客訪問一遍爲例，來比照單純串行和多進程並行的執行效率首先，獲取我所有博客的URL

2020-06-27 23:31:17

Python 爬蟲（二）：Requests 庫

目錄1 簡介2 快速上手2.1 發送請求2.2 參數傳遞2.3 響應內容2.4 自定義請求頭2.5 重定向與歷史2.6 錯誤與異常所謂爬蟲就是模擬客戶端發送網絡請求，獲取網絡響應，並按照一定的規則解析獲取的數據並保存的程序。要說

程序员野客

2020-06-22 04:18:13

Python 爬蟲（四）：Selenium 框架

目錄1 安裝2 操作瀏覽器2.1 打開瀏覽器2.2 設置瀏覽器窗口2.3 前進後退3 元素定位4 等待事件4.1 顯示等待4.2 隱式等待5 登錄 `163` 郵箱5.1 方式一5.2 方式二 Selenium 是一個用於測試 W

程序员野客

2020-06-22 04:18:13

爬蟲(5)一文搞懂cookie原理和使用(客官裏面請,下飯文章喫飽再走)

目錄什麼是cookie:cookie的格式:使用cookielib庫和HTTPCookieProcessor模擬登錄:1.cookie複製的方式爬取信息2.實現cookie的自動化獲取,並爬取信息什麼是cookie: 在網站中，

2020-06-21 23:07:52

【爬蟲】解析-豆瓣網站規範`robots.txt`

【爬蟲】解析-豆瓣網站規範robots.txt 文章目錄【爬蟲】解析-豆瓣網站規範`robots.txt`robots.txt解釋參考 robots.txt User-agent: * Disallow: /subject_sea

2020-06-19 15:58:19

【爬蟲】問題集-豆瓣電影

【爬蟲】問題集-豆瓣電影文章目錄【爬蟲】問題集-豆瓣電影問題1 pip install numpy命令行輸入的時候報錯 OSError: [WinError 87] 參數錯誤問題2 WebDriverException: Mes

2020-06-19 15:58:19

Python3關於selenium的強制等待、隱式等待和顯式等待(附上EC的主要方法)

強制等待 from selenium import webdriver import time driver = webdriver.Chrome() driver.get('https://www.baidu.com') pri

2020-06-16 14:57:02

Python爬蟲實戰——12306火車購票（附實例）

目錄春運到了，你還在手動買火車票嗎？1、什麼是selenium2、selenium的常見庫及其使用小案例查找獲取文本值模擬點擊3、操作實戰4、代碼上場春運到了，你還在手動買火車票嗎？ 1、什麼是selenium 在想要看懂代碼之

高羊羊羊羊羊杨

2020-06-16 06:17:21

【python爬蟲實戰】爬取豆瓣影評數據

概述：爬取豆瓣影評數據步驟： 1、獲取網頁請求 2、解析獲取的網頁 3、提速數據 4、保存文件源代碼： # 1、導入需要的庫 import urllib.request from bs4 import BeautifulSou

2020-06-14 11:16:36

【python爬蟲實戰】使用詞雲分析來分析豆瓣影評數據

概述：製作詞雲的步驟： 1、從文件中讀取數據 2、根據數據追加在一個字符串裏面，然後用jieba分詞器將評論分開 3、設置WordCloud詞雲參數 4、保存最後的結果數據：使用爬取的豆瓣影評數據第一步：引入依賴庫 # 1、

2020-06-14 11:16:36

【python爬蟲實戰】批量爬取站長之家的圖片

概述：站長之家的圖片爬取使用BeautifulSoup解析html 通過瀏覽器的形式來爬取,爬取成功後以二進制保存，保存的時候根據每一頁按頁存放每一頁的圖片第一頁：http://sc.chinaz.com/tupian/in

2020-06-14 11:16:36

python爬蟲 - 圖片下載示例代碼

2020-06-02 12:39:04

24小時熱門文章

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

最新文章

最新評論文章