ForeSpider採集教程發佈（表格類）：零基礎輕鬆獲取數據

原創

雨霖铃儿

2020-06-19 09:39

本篇以孔夫子舊書網爲例：

一.網站結構

1.網站截圖說明

該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取

【網站列表頁】

2.採集結果截圖

【採集數據結果】

二.配置模板

1.新建任務

【新建任務】

點擊【下一步】，需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】，如圖：

【新建採集任務】

2.創建/選擇表單

①創建表單

【創建表單】

②配置表單

根據所需內容，配置表單字段（即表頭），此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例

【配置表單】

③數據抽取鏈接關聯表單

選擇剛纔新創建的表單''孔夫子''

【關聯表單】

3.字段定位

取值方法：由於此處活取的是列表頁的數據，所以可以應用“識別列表”功能，直接取到列表數據，操作方法如下：

①點擊“數據抽取-孔夫子”，按住ctrl+鼠標左鍵點擊定位標題內容

【定位標題】

②按住Shift+鼠標左鍵繼續點擊，直到點擊到選中整個第一條數據

【定位第一條數據】

③在軟件的右下角可以看到“識別列表”按鈕，此時點擊“識別列表”，如下圖，此時列表中的內容都已經選中。

【定位全數據】

④對每個字段進行取值,方法依然是：按住Ctrl+鼠標左鍵，進行區域選擇，按住Shift+鼠標左鍵，擴大選擇區域。如：price字段,見下圖:

【字段定位】

4.模板預覽

鼠標右鍵點擊“孔夫子”，然後點擊“模板預覽”

【模板預覽】

5.過濾翻頁鏈接

勾選標題過濾,過濾規則選擇包含,填入''下一頁''

【過濾翻頁】

三.數據採集

1.連接數據庫

【連接數據庫】

2.創建數據表

【創建數據表】

3.選中數據表

【關聯數據表】

4.開始採集

【開始採集】

5.採集結果

【採集結果】

如需瞭解產品可進入我們的官方網站：http://www.forenose.com/

或關注我們的官方微信賬號【前嗅大數據】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ForeSpider採集教程發佈（表格類）：零基礎輕鬆獲取數據

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

再談23種設計模式（3）：行爲型模式（學習筆記）

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

前嗅ForeSpider數據採集教程：通過識別列表進行數據抽取

前嗅ForeSpider採集教程：通過關鍵詞的【檢索列表】採集【檢索結果】

ForeSpider採集教程發佈（表格類）：零基礎輕鬆獲取數據

2019十大科技事件盤點：“量子糾纏”見證真實的靈魂

2019都帶火了哪些人？最後一位令我們肅然起敬

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結