我不想一邊又一遍的講爬蟲是什麼,我寫這個系列的目的:
1.首先,打破大家學習新事物的誤區;我認爲能看到我博客的人大部分都是成年人,成年人的時間是不多的,寶貴的,所以不能再像以往上學時從基礎開始.
2.其次我要寫博客就要寫乾貨;直接從數據上下手,將內容都以"模塊化"書寫並使用.
3.將我的所學(自學)的內容分享出來;可能真正的高手與大佬會認爲我寫的會比較簡單基礎繁瑣,也歡迎各位指出我的錯誤,在這裏先感謝各位.
我現在正在整理我所有爬蟲項目,準備通過一條線將他們關聯起來,目前整理的爲:
1.爬蟲方法與基礎網頁爬取,數據篩選.
2.爬蟲篩選數據都有什麼方法,IO流方法,MySQL數據庫使用.
3.編寫爬蟲測試工具(以後會不斷完善工具).
4.綜合爬取CSDN首頁數據.
5.小總結,並放出我常用的編碼格式轉換等方法.
6.爬取36氪的24小時新聞(涉及尋找網頁接口),常用網頁接口查找方法.
7.爬取網站圖片,圖片爬取方法(IO流的使用).
8.使用爬蟲進行網站登錄,爬出登錄後內容.
9.爬取國內外ip地址,製作ip代理池,更換ip隱藏自己.
10.未完待續.
目前就是這樣,之後我還會整理的.