前嗅ForeSpider數據採集教程:通過識別列表進行數據抽取

以孔夫子舊書網(http://www.kongfz.com/1004/)爲例:

一.網站結構

1.網站截圖說明

該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取。

網站列表頁

 

2. 採集結果截圖

採集數據結果

 

二. 配置模板

  1. 新建任務

新建任務

 

點擊【下一步】,需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】,如圖:

新建採集任務

 

2.創建/選擇表單

①創建表單

創建表單

 

②配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例:

配置表單

 

③數據抽取鏈接關聯表單

選擇剛纔新創建的表單"孔夫子"

關聯表單

 

3.字段定位

取值方法:由於此處活取的是列表頁的數據,所以可以應用“識別列表”功能,直接取到列表數據,操作方法如下:

①點擊“數據抽取-孔夫子”,按住ctrl+鼠標左鍵點擊定位標題內容

定位標題

 

②按住Shift+鼠標左鍵繼續點擊,直到點擊到選中整個第一條數據

定位第一條數據

 

③在軟件的右下角可以看到“識別列表”按鈕 ,此時點擊“識別列表”,如下圖,此時列表中的內容都已經選中。

定位全數據

 

④對每個字段進行取值,方法依然是:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。如:price字段,見下圖:

字段定位

 

4.模板預覽

鼠標右鍵點擊“孔夫子”,然後點擊“模板預覽”

模板預覽

 

5.過濾翻頁鏈接

勾選標題過濾,過濾規則選擇包含,填入"下一頁"

過濾翻頁

 

三.數據採集

1.連接數據庫

連接數據庫

 

2.創建數據表

創建數據表

 

3.選中數據表

關聯數據表

4.開始採集

開始採集

 

5.採集結果

採集結果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章