十一、學習爬蟲框架WebMagic(七)---實戰小技巧

(一)Site.sleepTime的設置問題
  Webmagic 框架默認的休眠時間爲5000(5s),我看網上一般設置爲1000(1s),經實際驗證,若休眠時間過短,在多線程訪問頁面時,會報大量的403錯誤,所以這裏在爬取線程過多時,不妨就用框架默認的休眠時間。

(二)page.setSkip()
  Webmagic通過 ProcessorPipeline 組件,將爬取頁面爬取之後的業務邏輯進行了分離,若需要業務處理的 Page,則進入 Pipeline 中,無需業務處理的 Page,則可通過設置 page.setSkip(),來避免進入 Pipeline 中。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章