DouYinSpider
此Github包含兩個抖音爬蟲:
第一個爲github用戶loadchange的代碼,位於amemv-crawler目錄下:
“ 可以下載指定抖音用戶的全部視頻(含收藏),也可以下載指定主題(挑戰)或音樂下的全部視頻。”
其優勢爲爬取速度快,系統資源佔用少,但是不能夠篩選特定的視頻,如此項目的僅下載 豎屏廣告
indepent目錄下的本人的代碼,通過安卓模擬器,抓取抖音對應視頻及視頻數據,此項目抓取的目標視頻爲抖音隨機出現的 豎屏廣告
實際使用時可以根據自身 測試學習 需求修改FlowCatch.py邏輯
開發環境
- Python3
- Android environment
- Appium
- Mitmproxy
注意
這個項目是一個練手項目,源碼僅作爲和大家一起學習Python使用,你可以免費: 拷貝、分發和派生當前源碼。你不可以用於商業目的及其他惡意用途。
環境安裝
- Android environment
- 建議通過Android Studio安裝JDK,配置環境變量
- 安裝JAVA SDK
- 安卓模擬器: 常用的模擬器有
- genymotion(收費)
- 天天模擬器
- 夜神模擬器
- 領航模擬器
- 這裏使用天天模擬器作爲測試
- Appium
- Appium,爲類似於Selenium的移動端測試工具,建議安裝桌面版
- Appium,爲類似於Selenium的移動端測試工具,建議安裝桌面版
- Python 依賴庫:
pip install -r requirement.txt
配置和運行
- 首先運行天天模擬器,通過adb連接模擬器(天天默認端口6555):在命令行輸入
adb connect 127.0.0.1:6555 adb devices -l
第一步連接模擬器端口,如果端口連接不成功,可到ttmnq\deployed\TianTian.vbox中查看host端口(hostport)
第二步顯示是否連接成功,成功則會顯示已連接設備信息
返回結果應該如下圖表示連接成功:
- 通過模擬器內的“靠譜遊戲”安裝抖音App
- 安裝Mitmproxy證書
- 將C:\Users\UserName\.mitmproxy 目錄下面的mitmproxy-ca-cert.cer拖動到模擬器界面上安裝證書
- 雙擊運行安裝mitmproxy-ca-cert.p12,選擇證書存儲位置爲“受信任的根證書頒發機構”
- 運行Appium服務器(默認端口4723)
- 分別開啓兩個命令行窗口,激活虛擬環境,進入indepent目錄,命令行輸入
python AppiumControl.py mitmdump -s .\FlowCatcher.py
此時模擬器便被Appium控制,自行打開抖音並且開始沒日沒夜的刷抖音。