github地址:https://github.com/Jack-Cherish/python-spider#%E5%85%B6%E5%AE%83
因爲一些衆所周知的原因,github的下載速度慢的讓人抓狂(幾k/s的速度還能下載失敗,,,),所以我爲了方便大家已經下載打包整理好了,有需要的同學歡迎評論區留言。
筆趣看小說下載
biqukan.py:《筆趣看》盜版小說網站,爬取小說工具
百度文庫免費文章下載助手_rev1
baiduwenku.py: 百度文庫word文章爬取
百度文庫免費文章下載助手_rev2
baiduwenku.py: 百度文庫word文章爬取
《帥啊》網帥哥圖片下載
shuaia.py: 爬取《帥啊》網,帥哥圖片
構建代理IP池
daili.py: 構建代理IP池
《火影忍者》漫畫下載
carton: 使用Scrapy爬取《火影忍者》漫畫
代碼可以爬取整個《火影忍者》漫畫所有章節的內容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在settings.py中修改。
財務報表下載小助手
financical.py: 財務報表下載小助手
爬取的數據存入數據庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。
一小時入門網絡爬蟲
one_hour_spider:一小時入門Python3網絡爬蟲。
本次實戰內容有:
網絡小說下載(靜態網站)-biqukan,優美壁紙下載(動態網站)-unsplash,視頻下載
抖音App視頻下載
douyin.py:抖音App視頻下載
抖音App的視頻下載,就是普通的App爬取。
douyin_pro:抖音App視頻下載(升級版)
抖音App的視頻下載,添加視頻解析網站,支持無水印視頻下載,使用第三方平臺解析。
douyin:抖音App視頻下載(升級版2)
抖音App的視頻下載,添加視頻解析網站,支持無水印視頻下載,通過url解析,無需第三方平臺。
GEETEST驗證碼識別
geetest.py:GEETEST驗證碼識別
12306搶票小助手
12306.py:用Python搶火車票簡單代碼
可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作,沒有原理說明。
百萬英雄答題輔助系統
baiwan:百萬英雄輔助答題
功能介紹:
服務器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數據,解析之後通過百度知道搜索接口匹配答案,將最終匹配的結果寫入文件(file.txt)。
手機抓包不會的朋友,可以看下我的早期手機APP抓包教程。
Node.js(app.js)每隔1s讀取一次file.txt文件,並將讀取結果通過socket.io推送給客戶端(index.html)。
親測答題延時在3s左右。
聲明:沒做過後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程序,調試調試而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。
網易雲音樂免費音樂批量下載
根據music_list.txt文件裏的歌單的信息下載網易雲音樂,將自己喜歡的音樂進行批量下載。
B站免費視頻和彈幕批量下載
bilibili:B站視頻和彈幕批量下載
京東商品曬單圖下載
jingdong:京東商品曬單圖下載
正方教務管理系統個人信息查詢
zhengfang_system_spider:對正方教務管理系統個人課表,個人學生成績,績點等簡單爬取