初探爬蟲:xpath提取信息,爬取頁面小案例

初探爬蟲:xpath提取信息,爬取頁面小案例

一、準備階段
相關技術與庫

  • requests
  • lxml
  • 正則表達式
  • Google chrome
  • xpath插件
    1、實驗中的小問題:xpath語法有瑕疵,提取信息時定位不明確,還需要多多應用。
    2、在提取到標籤信息後,將文本按照想要的格式輸出時達不到預期效果,無法爬取對應的圖片url

二、實驗階段
首先引入本次實驗所需要的包
在這裏插入圖片描述

將寫好的download函數引入,其作用是模擬瀏覽器訪問(這裏我們添加了try使download函數看起來更加完美)並拿到對應的html

在這裏插入圖片描述

然後開始最重要的一步:對頁面進行解析,重點利用xpath插件對頁面進行解析

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
很顯然我們成功了!但是我們對提取出來的格式並不滿意,這裏我們利用簡單的循環嵌套來整理一下拿到的信息:

在這裏插入圖片描述
整理後:
在這裏插入圖片描述
讓我們來和要爬取的頁面對比一下:
在這裏插入圖片描述
ok!解決~

三、實驗心得
最重要的就是解析頁面時候不能着急,要耐心的通過xpath插件測試提取的信息,遇到問題靜下心來通過百度、詢問老師或者是檢查代碼語法來對程序進行調試。

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 2188
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章