手把手教你用Python爬蟲煎蛋妹紙海量圖片

我們的目標是
用爬蟲來幹一件略污事情


最近聽說煎蛋上有好多可愛的妹子,而且爬蟲從妹子圖抓起練手最好,畢竟動力大嘛。而且現在網絡上的妹子很黃很暴力,一下接受太多容易營養不量,但是本着有人身體就比較好的套路,特意分享下用點簡單的技術去獲取資源。
以後如果有機會,再給大家說說日本愛情動(大)作(霧)片的種子搜索爬取,多多關注。






請先準備作案工具


我們只准備最簡單的

  • python 2.7.11
  • Google Chrome
安裝的時候記得把pip帶上,這樣可以方便我們安裝一些好用的包,來方便我們幹壞事(學習)的過程。

需要用到的包

  • 包括更佳符合人類的HTTP庫--requests
  • 用來解析html文件,快速提取我們需要的內容--beautifulsoup4


也可以用下面的命令快速安裝

  • pip install requests
  • pip install beautifulsoup4


幹正事
從一次正常需求說起


每天在互聯網上衝來衝去,瀏覽着大量的信息,觀看這各種鼻血噴發的圖片,於是作爲新時代青年的我們,怎麼能忍受被這些大量的垃圾信息充斥的互聯網,我們要反抗,我們要下載!


請,看,下,圖



當你在網上衝浪的時候遇到這樣的圖片,我就問你:
虐不虐?虐死了!
下不下?下!


開始吧
獲取圖片的CSS選擇器的規則


首先,我們需要定位我們需要的圖片
(點開大圖很清晰)


根據我們之前的準備的作案工具,使用chrome來訪問網頁
http://jandan.net/ooxx
然後打開開發者工具菜單 -> 更多工具 -> 開發者工具
看下圖右邊的神器
(圖都不點開還學個毛線)



點擊這個圖標會出現塊選擇器,
鼠標移動我們感興趣的部分
(點開大圖,你就看得見點哪裏了)



按照圖片指示點擊區域
(點開大圖……我都懶得複述了)


右邊神器中就會出現我們所需要的img標籤
(開,大,圖。科科)


查看之前最後一個以#comments開頭的標籤, 
它包含了所有img的子標籤。



下面讓我們來一些
神祕的事


打開cmd或者終端
輸入python



輸入以下神祕代碼


現在偷偷看一下你的當前目錄
是不是有很多(污)的圖片



名詞解釋
網絡爬蟲


網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲的使用對很多工作都是很有用的,但是對一般的社區,也需要付出代價。使用爬蟲的代價包括:
網絡資源:在很長一段時間,爬蟲使用相當的帶寬高度並行地工作。
服務器超載:尤其是對給定服務器的訪問過高時。
質量糟糕的爬蟲,可能導致服務器或者路由器癱瘓,或者會嘗試下載自己無法處理的頁面。
個人爬蟲,如果過多的人使用,可能導致網絡或者服務器阻塞。


是不是還不夠
行蹤不定的下期預告


看着上面規整的排版——前後有序、圖文並茂,不就是練手爬蟲技術最好的機會嗎?今天就到這裏了,讀取下一頁什麼的就靠你自己探索,我將會在下個系列給你一個參考方法,希望你持續關注。


反爬蟲

來源:www.bigsec.com


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章