ForeSpider採集教程發佈(表格類):零基礎輕鬆獲取數據

本篇以孔夫子舊書網爲例:

一.網站結構

1.網站截圖說明

該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取

 

【網站列表頁】

2.採集結果截圖

 

【採集數據結果】

二.配置模板

1.新建任務

 

【新建任務】

點擊【下一步】,需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】,如圖:

【新建採集任務】

2.創建/選擇表單

①創建表單

 

【創建表單】

②配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例

【配置表單】

③數據抽取鏈接關聯表單

選擇剛纔新創建的表單''孔夫子''

【關聯表單】

3.字段定位

取值方法:由於此處活取的是列表頁的數據,所以可以應用“識別列表”功能,直接取到列表數據,操作方法如下:

①點擊“數據抽取-孔夫子”,按住ctrl+鼠標左鍵點擊定位標題內容

【定位標題】

②按住Shift+鼠標左鍵繼續點擊,直到點擊到選中整個第一條數據

【定位第一條數據】

③在軟件的右下角可以看到“識別列表”按鈕 ,此時點擊“識別列表”,如下圖,此時列表中的內容都已經選中。

【定位全數據】

④對每個字段進行取值,方法依然是:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。如:price字段,見下圖:

【字段定位】

4.模板預覽

鼠標右鍵點擊“孔夫子”,然後點擊“模板預覽”

 

【模板預覽】

5.過濾翻頁鏈接

勾選標題過濾,過濾規則選擇包含,填入''下一頁''

【過濾翻頁】

三.數據採集

1.連接數據庫

【連接數據庫】

2.創建數據表

 

【創建數據表】

3.選中數據表

【關聯數據表】

4.開始採集

【開始採集】

5.採集結果

【採集結果】


如需瞭解產品可進入我們的官方網站:http://www.forenose.com/

或關注我們的官方微信賬號【前嗅大數據】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章