爬蟲基本流程

爬蟲的定義:請求網站並提取數據的自動化程序


put請求的參數會包含在url中,而post則不會


響應體就是源代碼.先得到文件的類型,就是源代碼,然後在繼續請求內置的各種鏈接,一般都是圖片啊,視頻之類的.


如何來解析?


爲什麼我們抓到的數據和瀏覽器中看到的不一樣呢?

用庫得到的是網頁的源代碼,而瀏覽器(elements)中,顯示的是經過js渲染的

怎樣解決JavaScript渲染的問題?


怎樣保存數據?












發佈了25 篇原創文章 · 獲贊 8 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章