爬蟲的定義:請求網站並提取數據的自動化程序
put請求的參數會包含在url中,而post則不會
響應體就是源代碼.先得到文件的類型,就是源代碼,然後在繼續請求內置的各種鏈接,一般都是圖片啊,視頻之類的.
如何來解析?
爲什麼我們抓到的數據和瀏覽器中看到的不一樣呢?
用庫得到的是網頁的源代碼,而瀏覽器(elements)中,顯示的是經過js渲染的
怎樣解決JavaScript渲染的問題?
怎樣保存數據?
爬蟲的定義:請求網站並提取數據的自動化程序
put請求的參數會包含在url中,而post則不會
響應體就是源代碼.先得到文件的類型,就是源代碼,然後在繼續請求內置的各種鏈接,一般都是圖片啊,視頻之類的.
如何來解析?
爲什麼我們抓到的數據和瀏覽器中看到的不一樣呢?
用庫得到的是網頁的源代碼,而瀏覽器(elements)中,顯示的是經過js渲染的
怎樣解決JavaScript渲染的問題?
怎樣保存數據?
繼續運行 ?* 回憶上次內容 上次使用shell環境中的命令 命令 作用 c