python各類爬蟲案例,爬到你手軟!(附代碼)

先來看看有哪些項目呢:

python爬蟲小工具(文件下載助手)

爬蟲實戰(筆趣看小說下載)

爬蟲實戰(VIP視頻下載)

爬蟲實戰(百度文庫文章下載)

爬蟲實戰(《帥啊》網帥哥圖片下載)

爬蟲實戰(構建代理IP池)

爬蟲實戰(《火影忍者》漫畫下載)

爬蟲實戰(財務報表下載小助手)

爬蟲實戰(抖音App視頻下載)

爬蟲實戰(GEETEST驗證碼破解)

爬蟲實戰(12306搶票小助手)

爬蟲實戰(百萬英雄答題輔助系統)

爬蟲實戰(網易雲音樂批量下載)

爬蟲實戰(B站視頻和彈幕批量下載)

爬蟲實戰(京東商品曬單圖下載)

爬蟲實戰(正方教務管理系統爬蟲)

怎麼樣?是不是迫不及待的想自己動手試試了呢?

爬蟲小工具

文件下載小助手

一個可以用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。

代碼展示:

爬蟲實戰

《筆趣看》盜版小說網站,爬取小說工具

第三方依賴庫安裝:

pip3 install beautifulsoup4

使用方法:

python biqukan.py

代碼展示:

愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)

學習Python中的小夥伴,需要學習資料的話,可以前往我的微信公衆號:速學Python,後臺回覆:簡書,即可拿Python學習資料

這裏有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。送給正在學習python的小夥伴!這裏是python學習者聚集地,歡迎初學和進階中的小夥伴!

運行源碼需要搭建Python3環境,並安裝相應第三方依賴庫:

pip3 install -r requirements.txt

使用方法:

python movie_downloader.py

運行環境:

Windows, Python3

Linux, Python3

Mac, Python3

代碼展示:

百度文庫word文章爬取

代碼不完善,沒有進行打包,不具通用性,純屬娛樂,以後有時間會完善。

代碼展示:

爬取《帥啊》網,帥哥圖片

運行平臺: Windows

Python版本: Python3.x

IDE: Sublime text3

爲了也能夠學習到新知識,本次爬蟲教程使用requests第三方庫,這個庫可不是Python3內置的urllib.request庫,而是一個強大的基於urllib3的第三方庫。

代碼展示:

構建代理IP池

代碼展示:

使用Scrapy爬取《火影忍者》漫畫

代碼可以爬取整個《火影忍者》漫畫所有章節的內容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在代碼中修改。

代碼展示:

《王者榮耀》推薦出裝查詢小助手

網頁爬取已經會了,想過爬取手機APP裏的內容嗎?

代碼展示:

財務報表下載小助手

爬取的數據存入數據庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。

代碼展示:

抖音App視頻下載

抖音App的視頻下載,就是普通的App爬取。

代碼展示:

GEETEST驗證碼破解

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作爲提供驗證碼服務的行家,市場佔有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破?授人予魚不如授人予漁,接下來就爲大家呈現本教程的精彩內容。

代碼展示:

用Python搶火車票簡單代碼

可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作。

代碼展示:

baiwan:百萬英雄輔助答題

看了網上很多的教程都是通過OCR識別的,這種方法的優點在於通用性強。不同的答題活動都可以參加,但是缺點也明顯,速度有限,並且如果通過調用第三方OCR,有次數限制。但是使用本教程提到的數據接口。我們能很容易的獲取數據,速度快,但是接口是變化的,需要及時更新。

代碼展示:

功能介紹:

服務器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數據,解析之後通過百度知道搜索接口匹配答案,將最終匹配的結果寫入文件(file.txt)。

Node.js(app.js)每隔1s讀取一次file.txt文件,並將讀取結果通過socket.io推送給客戶端(index.html)。

親測答題延時在3s左右。

聲明:沒做過後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程序,調試調試而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。

Netease:根據歌單下載網易雲音樂

功能介紹:

根據music_list.txt文件裏的歌單的信息下載網易雲音樂,將自己喜歡的音樂進行批量下載。

代碼展示:

bilibili:B站視頻和彈幕批量下載

下載B站視頻和彈幕,將xml原生彈幕轉換爲ass彈幕文件,支持plotplayer等播放器的彈幕播放。

代碼展示:

使用說明:

python bilibili.py -d 貓 -k 貓 -p 10

三個參數:

-d保存視頻的文件夾名

-kB站搜索的關鍵字

-p下載搜索結果前多少頁

京東商品曬單圖下載

使用說明:

python jd.py -k 芒果

三個參數:

-d保存圖片的路徑,默認爲fd.py文件所在文件夾

-k搜索關鍵詞

-n 下載商品的曬單圖個數,即n個商店的曬單圖

代碼展示:

對正方教務管理系統個人課表,學生成績,績點等簡單爬取

依賴環境

python 3.6

python庫

http請求:requests,urllib

數據提取:re,lxml,bs4

存儲相關:os,sys

驗證碼處理:PIL

下載安裝

在終端輸入如下命令:

git clone [email protected]:Jack-Cherish/python-spider.git

使用方法

安裝依賴包

pip install -r requirements.txt

運行

在當前目錄下輸入:

cd zhengfang_system_spider

python spider.py

運行爬蟲,按提示輸入學校教務網,學號,密碼,輸入驗證碼

稍等幾秒鐘,當前ZhengFang_System_Spider文件夾下就會生成zhengfang.txt

個人課表,成績績點均已保存到該文本文件中

代碼展示:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章