本篇以孔夫子舊書網爲例:
一.網站結構
1.網站截圖說明
該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取
【網站列表頁】
2.採集結果截圖
【採集數據結果】
二.配置模板
1.新建任務
【新建任務】
點擊【下一步】,需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】,如圖:
【新建採集任務】
2.創建/選擇表單
①創建表單
【創建表單】
②配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例
【配置表單】
③數據抽取鏈接關聯表單
選擇剛纔新創建的表單''孔夫子''
【關聯表單】
3.字段定位
取值方法:由於此處活取的是列表頁的數據,所以可以應用“識別列表”功能,直接取到列表數據,操作方法如下:
①點擊“數據抽取-孔夫子”,按住ctrl+鼠標左鍵點擊定位標題內容
【定位標題】
②按住Shift+鼠標左鍵繼續點擊,直到點擊到選中整個第一條數據
【定位第一條數據】
③在軟件的右下角可以看到“識別列表”按鈕 ,此時點擊“識別列表”,如下圖,此時列表中的內容都已經選中。
【定位全數據】
④對每個字段進行取值,方法依然是:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。如:price字段,見下圖:
【字段定位】
4.模板預覽
鼠標右鍵點擊“孔夫子”,然後點擊“模板預覽”
【模板預覽】
5.過濾翻頁鏈接
勾選標題過濾,過濾規則選擇包含,填入''下一頁''
【過濾翻頁】
三.數據採集
1.連接數據庫
【連接數據庫】
2.創建數據表
【創建數據表】
3.選中數據表
【關聯數據表】
4.開始採集
【開始採集】
5.採集結果
【採集結果】
如需瞭解產品可進入我們的官方網站:http://www.forenose.com/
或關注我們的官方微信賬號【前嗅大數據】