以孔夫子舊書網(http://www.kongfz.com/1004/)爲例:
一.網站結構
1.網站截圖說明
該網站爲列表結構,可以通過識別列表的方式對全篇數據進行抽取。
網站列表頁
2. 採集結果截圖
採集數據結果
二. 配置模板
- 新建任務
新建任務
點擊【下一步】,需要採集每一頁檢索結果並抽取數據,所以此處需要勾選【普通翻頁】和【數據抽取】,如圖:
新建採集任務
2.創建/選擇表單
①創建表單
創建表單
②配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、作者名稱、標題名稱、價格等四個字段, 以配置發佈時間(pubtime)爲例:
配置表單
③數據抽取鏈接關聯表單
選擇剛纔新創建的表單"孔夫子"
關聯表單
3.字段定位
取值方法:由於此處活取的是列表頁的數據,所以可以應用“識別列表”功能,直接取到列表數據,操作方法如下:
①點擊“數據抽取-孔夫子”,按住ctrl+鼠標左鍵點擊定位標題內容
定位標題
②按住Shift+鼠標左鍵繼續點擊,直到點擊到選中整個第一條數據
定位第一條數據
③在軟件的右下角可以看到“識別列表”按鈕 ,此時點擊“識別列表”,如下圖,此時列表中的內容都已經選中。
定位全數據
④對每個字段進行取值,方法依然是:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。如:price字段,見下圖:
字段定位
4.模板預覽
鼠標右鍵點擊“孔夫子”,然後點擊“模板預覽”
模板預覽
5.過濾翻頁鏈接
勾選標題過濾,過濾規則選擇包含,填入"下一頁"
過濾翻頁
三.數據採集
1.連接數據庫
連接數據庫
2.創建數據表
創建數據表
3.選中數據表
關聯數據表
4.開始採集
開始採集
5.採集結果
採集結果