一.概述
爬蟲分兩步走,首先要對你想要獲取數據的目標網址進行解析,明確所要獲取的數據,以及目標網頁的結構,其次,在進行數據的爬取。
上一節,大家瞭解到了什麼是網絡爬蟲和爬蟲的一些基本知識。那麼這一章就以爬取貓眼電影 Top 100 爲實例,先教大家如何解析網頁。
二.解析網頁
1.打開網頁
貓眼電源top10網頁
頁面如下:
2.審查元素
右鍵檢查元素,我這裏以火狐瀏覽器爲例
就會出現下列源代碼
那這有什麼作用呢??
我們爬取數據,首先得分析網頁的結構,這就要根據源代碼來。圖中箭頭指向的是一個選擇器,點擊他然後在網頁中查看你想要的地方就回跳出響應的源代碼。
3.明確元素
在此次網頁中我們要明確趴取得元素:排名、封面圖片、影片名、主演、上映時間、評分
每一部電影信息都在
4.查看所需爬取元素所在位置
以上我們便完成了對爬取元素的分析,在下面我們開始準備爬取工作