【JAVA爬了個蟲系列】Part1——初識爬蟲

一、什麼是爬蟲       

        百度的定義是:網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

        而我對於爬蟲的定義是:通過代碼抓取網頁信息,然後通過特定的規則篩選出有價值的信息,然後進行偷懶的技術,譬如我朋友小明,前兩天在微博上面看到一位大美女,一見鍾情的他把這位美女發佈在微博上的每一張圖片都保存了下來,然後從喫完晚飯開始手動保存截圖到睡前,保存了上千張圖片,我知道這個消息後給他寫個一個程序,用來自動獲取圖片的地址並且下載到本地存儲,用的時間也就短短的幾分鐘,效率比小明快得太多了,而且我還不用守着電腦去操作。這就是我定義的爬蟲——一種用來偷懶的技術。

 

未完待續。。。。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章