爬蟲奇遇記——爬不到想要的內容

這一系列將分享在寫網絡爬蟲時遇到的奇葩事

我們在寫爬蟲時,總是先F12看一下網頁的源代碼,看到內容後再想策略去抓取想要的內容,這種思路對於文本內容是靜態的話是行得通的,但是如果遇到動態加載的內容,就很麻煩了,你會發現你爬下的html文件里根本找不到你想要的內容,這也是網絡商應對爬蟲的一種策略。

下面舉例說明,用站長之家的SEO查詢來講


比如想抓這個中文網站排名的數據,看一下源碼:


有,可以爬下來,看看:


什麼!居然是空標籤,抓狂啊!大哭

搗鼓了幾次,發現還是沒有內容,這纔想到可能是動態加載進來的,JS

那麼,怎麼知道這個內容是通過哪個js腳本加載的呢?這麼多get,post請求,怎麼找?

這時,網絡監聽器就派上用場了,這裏我就不推薦哪一款了,以免被噴軟文。

網絡監聽器可以實時監測瀏覽器裏網頁發送的事件。這樣就可以找到使內容發生變化的腳本文件了。

但是,然並卵!抓狂我找到請求的JS文件,也沒能在文件裏找到排名數據。這個問題待解決!

如果有大神知道怎麼做可以告訴我一聲,不勝感激







發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章