puppeteer脫坑指南

記錄puppeteer爬蟲遇到的坑


1. page.$(selector)中,selector不精確
2. page.goto(url[, options]),跳轉多個頁面卡死的情況

page.$(selector)中,selector不精確

打開控制檯,在頁面查看器裏右鍵點擊需要用到的DOM,Copy -> Copy Selector,此時複製到的就是DOM元素在本頁面最精確的節點路徑
比如我要拿到思否首頁的logo的節點路徑
圖片.png
body > div.global-nav.sf-header.sf-header--index > nav > div.row.hidden-xs.hidden-sm > div.col-sm-8.col-md-9.col-lg-9 > div.sf-header__logo > h1 > a

page.goto(url[, options]),跳轉多個頁面卡死的情況

puppeteer爬蟲是去拿的頁面的dom,{waitUntil: 'domcontentloaded'},加上這句話表示等待頁面DOM加載完成後纔有返回值,這樣避免了頁面DOM沒加載完就去爬數據而導致的錯誤
await page.goto(url, {waitUntil: 'domcontentloaded'});
圖片.png

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章