本篇以360問答論壇爲例:
一.網站結構
1.網站截圖說明
某些網站需要登陸後纔可進行內容的採集,登陸時需先對登陸信息輸入位置進行定位,便於後續採集
【網站登陸頁】
【採集列表頁】
2.採集結果截圖
【檢索列表鏈接】
【檢索結果數據】
二.配置模板
1.新建任務
【新建任務】
2.新建採集任務
【新建採集任務】
本次採集列表下的正文數據,所以本次需要抽取內容選擇【鏈接列表】,爲了將每一頁的內容都成功採集選擇【普通翻頁】
3.配置登陸
【網站登錄界面】
①內置瀏覽器找到登錄按鈕,彈出登錄框
【網站登錄順序】
②先點擊【用戶名】
【輸入框定位】
③如上圖,對【用戶名輸入框】進行定位,crtl+左鍵點擊【用戶名輸入框】的位置,直至被綠色框住代表定位成功,並按此方式完成的位置定位
【定位成功界面】
④【用戶名】和【密碼】定位完成後,點擊,cookie配置框中出現數據,按Ctrl+鼠標左鍵單擊“登錄按鈕”,內置瀏覽器頁面登錄成功,配置完成
4.配置模板
【採集預覽】
①點擊採集預覽,在採集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“thread-”
【地址過濾】
②勾選地址過濾,過濾規則選擇包含,填入“thread-”
【標題過濾】
③勾選標題過濾,過濾規則選擇包含,填入''下一頁''
【採集預覽】
④點擊採集預覽,下一頁和包含''thread-''的內容都被成功過濾,如下圖:
5. 模板關聯
【模板關聯】
根據網頁跳轉規律,將【鏈接列表】關聯【鏈接列表:02】, 【普通翻頁】關聯【默認模板:01】,此處軟件已自動進行了關聯,如果配置時發現關聯有問題,可自行進行更改
6.數據抽取
【數據抽取】
將模板一過濾得到的任意一條鏈接,作爲鏈接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html
7.新建數據抽取
【新建數據抽取】
新建數據抽取。直接點擊鏈接列表,點擊上面“新建數據抽取” 按鈕,得到數據抽取,如下圖:
8. 創建/選擇表單
①創建表單
【創建表單】
②配置表單
【配置表單】
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、發佈時間、正文內,網頁標題以及網頁地址五個字段,以配置發佈時間(pubtime)爲例
③數據抽取鏈接關聯表單
【關聯表單】
選擇剛纔新創建的表單''360問答''
9.字段定位
【字段定位】
主鍵字段自動生成無需定位,以pubtime字段爲例進行定位,如下圖所示,將各字段依次定位
10.採集預覽
【採集預覽】
字段定位完成後,進行模板預覽,查看是否所需內容都被採集進來
四.數據採集
1.連接數據庫
【連接數據庫】
2.關聯數據表
【關聯數據表】
3.選中數據表
【選中數據表】
4.開始採集
【開始採集】
如需瞭解產品可進入我們的官方網站:http://www.forenose.com/
或關注我們的官方微信賬號【前嗅大數據】