(一)Site.sleepTime的設置問題
Webmagic 框架默認的休眠時間爲5000(5s),我看網上一般設置爲1000(1s),經實際驗證,若休眠時間過短,在多線程訪問頁面時,會報大量的403錯誤,所以這裏在爬取線程過多時,不妨就用框架默認的休眠時間。
(二)page.setSkip()
Webmagic通過 Processor
和 Pipeline
組件,將爬取頁面和爬取之後的業務邏輯進行了分離,若需要業務處理的 Page
,則進入 Pipeline
中,無需業務處理的 Page
,則可通過設置 page.setSkip()
,來避免進入 Pipeline
中。