ForeSpider採集教程發佈(論壇類):零基礎輕鬆獲取數據

本篇以360問答論壇爲例:

一.網站結構

1.網站截圖說明

某些網站需要登陸後纔可進行內容的採集,登陸時需先對登陸信息輸入位置進行定位,便於後續採集

【網站登陸頁】

【採集列表頁】

2.採集結果截圖

 

【檢索列表鏈接】

【檢索結果數據】

二.配置模板

1.新建任務

【新建任務】

2.新建採集任務

【新建採集任務】

本次採集列表下的正文數據,所以本次需要抽取內容選擇【鏈接列表】,爲了將每一頁的內容都成功採集選擇【普通翻頁】

3.配置登陸

【網站登錄界面】

①內置瀏覽器找到登錄按鈕,彈出登錄框

【網站登錄順序】

②先點擊【用戶名】

【輸入框定位】

③如上圖,對【用戶名輸入框】進行定位,crtl+左鍵點擊【用戶名輸入框】的位置,直至被綠色框住代表定位成功,並按此方式完成的位置定位

【定位成功界面】

④【用戶名】和【密碼】定位完成後,點擊,cookie配置框中出現數據,按Ctrl+鼠標左鍵單擊“登錄按鈕”,內置瀏覽器頁面登錄成功,配置完成

4.配置模板

【採集預覽】

①點擊採集預覽,在採集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“thread-”

【地址過濾】

②勾選地址過濾,過濾規則選擇包含,填入“thread-”

【標題過濾】

③勾選標題過濾,過濾規則選擇包含,填入''下一頁''

【採集預覽】

④點擊採集預覽,下一頁和包含''thread-''的內容都被成功過濾,如下圖:

5. 模板關聯

 

【模板關聯】

根據網頁跳轉規律,將【鏈接列表】關聯【鏈接列表:02】, 【普通翻頁】關聯【默認模板:01】,此處軟件已自動進行了關聯,如果配置時發現關聯有問題,可自行進行更改

6.數據抽取

【數據抽取】

將模板一過濾得到的任意一條鏈接,作爲鏈接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html

7.新建數據抽取

【新建數據抽取】

新建數據抽取。直接點擊鏈接列表,點擊上面“新建數據抽取” 按鈕,得到數據抽取,如下圖:

8. 創建/選擇表單

①創建表單

【創建表單】

②配置表單

【配置表單】

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、發佈時間、正文內,網頁標題以及網頁地址五個字段,以配置發佈時間(pubtime)爲例

③數據抽取鏈接關聯表單

【關聯表單】

選擇剛纔新創建的表單''360問答''

9.字段定位

【字段定位】

主鍵字段自動生成無需定位,以pubtime字段爲例進行定位,如下圖所示,將各字段依次定位

10.採集預覽

【採集預覽】

字段定位完成後,進行模板預覽,查看是否所需內容都被採集進來

四.數據採集

1.連接數據庫

【連接數據庫】

2.關聯數據表

【關聯數據表】

3.選中數據表

【選中數據表】

4.開始採集

【開始採集】


如需瞭解產品可進入我們的官方網站:http://www.forenose.com/

或關注我們的官方微信賬號【前嗅大數據】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章