手把手教你用Python爬蟲煎蛋妹紙海量圖片

原創

2020-06-20 08:12

我們的目標是

用爬蟲來幹一件略污事情

最近聽說煎蛋上有好多可愛的妹子，而且爬蟲從妹子圖抓起練手最好，畢竟動力大嘛。而且現在網絡上的妹子很黃很暴力，一下接受太多容易營養不量，但是本着有人身體就比較好的套路，特意分享下用點簡單的技術去獲取資源。
以後如果有機會，再給大家說說日本愛情動（大）作（霧）片的種子搜索爬取，多多關注。

請先準備作案工具

我們只准備最簡單的

python 2.7.11
Google Chrome

安裝的時候記得把pip帶上，這樣可以方便我們安裝一些好用的包，來方便我們幹壞事(學習)的過程。

需要用到的包

包括更佳符合人類的HTTP庫--requests
用來解析html文件，快速提取我們需要的內容--beautifulsoup4

也可以用下面的命令快速安裝

pip install requests
pip install beautifulsoup4

幹正事

從一次正常需求說起

每天在互聯網上衝來衝去，瀏覽着大量的信息，觀看這各種鼻血噴發的圖片，於是作爲新時代青年的我們，怎麼能忍受被這些大量的垃圾信息充斥的互聯網，我們要反抗，我們要下載！

請，看，下，圖
↓

當你在網上衝浪的時候遇到這樣的圖片，我就問你：
虐不虐？虐死了！
下不下？下！

開始吧

獲取圖片的CSS選擇器的規則

首先，我們需要定位我們需要的圖片
（點開大圖很清晰）

根據我們之前的準備的作案工具，使用chrome來訪問網頁
http://jandan.net/ooxx
然後打開開發者工具菜單 -> 更多工具 -> 開發者工具
看下圖右邊的神器
（圖都不點開還學個毛線）

點擊這個圖標會出現塊選擇器，
鼠標移動我們感興趣的部分
（點開大圖，你就看得見點哪裏了）

按照圖片指示點擊區域
（點開大圖……我都懶得複述了）

右邊神器中就會出現我們所需要的img標籤
（開，大，圖。科科）

查看之前最後一個以#comments開頭的標籤，
它包含了所有img的子標籤。

下面讓我們來一些

神祕的事

打開cmd或者終端
輸入python

輸入以下神祕代碼

現在偷偷看一下你的當前目錄
是不是有很多（污）的圖片

名詞解釋

網絡爬蟲

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱爲網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲的使用對很多工作都是很有用的，但是對一般的社區，也需要付出代價。使用爬蟲的代價包括：
網絡資源：在很長一段時間，爬蟲使用相當的帶寬高度並行地工作。
服務器超載：尤其是對給定服務器的訪問過高時。
質量糟糕的爬蟲，可能導致服務器或者路由器癱瘓，或者會嘗試下載自己無法處理的頁面。
個人爬蟲，如果過多的人使用，可能導致網絡或者服務器阻塞。

是不是還不夠
行蹤不定的下期預告

看着上面規整的排版——前後有序、圖文並茂，不就是練手爬蟲技術最好的機會嗎?今天就到這裏了，讀取下一頁什麼的就靠你自己探索，我將會在下個系列給你一個參考方法，希望你持續關注。

反爬蟲

來源：www.bigsec.com

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

手把手教你用Python爬蟲煎蛋妹紙海量圖片

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

手把手教你用Python爬蟲煎蛋妹紙海量圖片

爲什麼 UserAgent 中出現「 iPhone；U; 」的訂單都是高危的？

什麼樣的爬蟲纔是好爬蟲：Robots協議探究

適用於初創公司的超輕量級smtp服務配置

Openresty的開發閉環初探

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結