(1)獲取網頁就是給一個網址發送請求,該網址會返回整個網頁的數據。類似於在瀏覽器中鍵入網址並按回車鍵,然後可以看到網站的整個頁面。
(2)解析網頁就是從整個網頁的數據中提取想要的數據。類似於你在頁面中想找到產品的價格,價格就是你要提取的數據。
(3)存儲數據也很容易理解,就是把數據存儲下來。我們可以存儲在csv中,也可以存儲在數據庫中。
三個流程的技術實現
下面列出三個流程的技術實現,括號裏是對應的章節。
1.獲取網頁
獲取網頁的基礎技術:requests、urllib和selenium(3&4)。
獲取網頁的進階技術:多進程多線程抓取(8)、登錄抓取(12)、突破IP封禁(9)和使用服務器抓取(12)。
2.解析網頁
解析網頁的基礎技術:re正則表達式、BeautifulSoup和lxml(5)。
解析網頁的進階技術:解決中文亂碼(10)。
3.存儲數據
存儲數據的基礎技術:存入txt文件和存入csv文件(6)。
存儲數據的進階技術:存入MySQL數據庫和MongoDB數據庫(6)。