[java爬蟲] 一.從哪裏開始到哪裏開始要哪裏開始

我不想一邊又一遍的講爬蟲是什麼,我寫這個系列的目的:

1.首先,打破大家學習新事物的誤區;我認爲能看到我博客的人大部分都是成年人,成年人的時間是不多的,寶貴的,所以不能再像以往上學時從基礎開始.

2.其次我要寫博客就要寫乾貨;直接從數據上下手,將內容都以"模塊化"書寫並使用.

3.將我的所學(自學)的內容分享出來;可能真正的高手與大佬會認爲我寫的會比較簡單基礎繁瑣,也歡迎各位指出我的錯誤,在這裏先感謝各位.

 

我現在正在整理我所有爬蟲項目,準備通過一條線將他們關聯起來,目前整理的爲:

1.爬蟲方法與基礎網頁爬取,數據篩選.

2.爬蟲篩選數據都有什麼方法,IO流方法,MySQL數據庫使用.

3.編寫爬蟲測試工具(以後會不斷完善工具).

4.綜合爬取CSDN首頁數據.

5.小總結,並放出我常用的編碼格式轉換等方法.

6.爬取36氪的24小時新聞(涉及尋找網頁接口),常用網頁接口查找方法.

7.爬取網站圖片,圖片爬取方法(IO流的使用).

8.使用爬蟲進行網站登錄,爬出登錄後內容.

9.爬取國內外ip地址,製作ip代理池,更換ip隱藏自己.

10.未完待續.

 

目前就是這樣,之後我還會整理的.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章