前嗅ForeSpider數據採集教程：通過識別列表進行數據抽取

原創

雨霖铃儿

2020-06-19 10:46

以孔夫子舊書網（http://www.kongfz.com/1004/）爲例：

一.網站結構

1.網站截圖說明

該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取。

網站列表頁

2. 採集結果截圖

採集數據結果

二. 配置模板

新建任務

新建任務

點擊【下一步】，需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】，如圖：

新建採集任務

2.創建/選擇表單

①創建表單

創建表單

②配置表單

根據所需內容，配置表單字段（即表頭），此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例：

配置表單

③數據抽取鏈接關聯表單

選擇剛纔新創建的表單"孔夫子"

關聯表單

3.字段定位

取值方法：由於此處活取的是列表頁的數據，所以可以應用“識別列表”功能，直接取到列表數據，操作方法如下：

①點擊“數據抽取-孔夫子”，按住ctrl+鼠標左鍵點擊定位標題內容

定位標題

②按住Shift+鼠標左鍵繼續點擊，直到點擊到選中整個第一條數據

定位第一條數據

③在軟件的右下角可以看到“識別列表”按鈕，此時點擊“識別列表”，如下圖，此時列表中的內容都已經選中。

定位全數據

④對每個字段進行取值,方法依然是：按住Ctrl+鼠標左鍵，進行區域選擇，按住Shift+鼠標左鍵，擴大選擇區域。如：price字段,見下圖:

字段定位

4.模板預覽

鼠標右鍵點擊“孔夫子”，然後點擊“模板預覽”

模板預覽

5.過濾翻頁鏈接

勾選標題過濾,過濾規則選擇包含,填入"下一頁"

過濾翻頁

三.數據採集

1.連接數據庫

連接數據庫

2.創建數據表

創建數據表

3.選中數據表

關聯數據表

4.開始採集

開始採集

5.採集結果

採集結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

前嗅ForeSpider數據採集教程：通過識別列表進行數據抽取

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

前嗅ForeSpider數據採集教程：通過識別列表進行數據抽取

前嗅ForeSpider採集教程：通過關鍵詞的【檢索列表】採集【檢索結果】

ForeSpider採集教程發佈（表格類）：零基礎輕鬆獲取數據

2019十大科技事件盤點：“量子糾纏”見證真實的靈魂

2019都帶火了哪些人？最後一位令我們肅然起敬

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結