原创 怎麼用Python寫一個瀏覽器集羣框架

這是做什麼用的 框架用途 在採集大量新聞網站時,不可避免的遇到動態加載的網站,這給配模版的人增加了很大難度。本來配靜態網站只需要兩個技能點:xpath和正則,如果是動態網站的還得抓包,遇到加密的還得js逆向。 所以就需要用瀏覽器渲染這些動態

原创 【Python微信機器人】第二篇:將python注入到其他進程

目錄修整 目前的系列目錄(後面會根據實際情況變動): 在windows11上編譯python 將python注入到其他進程並運行 使用C++寫一個python的pyd庫,用於實現inline hook Python ctypes庫的使用

原创 【Python微信機器人】第一篇:在windows11上編譯python

前言 我打算寫一個系列,內容是將python注入到其他進程實現inline hook和主動調用。本篇文章是這個系列的第一篇,後面用到的案例是注入python到PC微信實現基本的收發消息。文章着重於python方面的內容,所以對於微信找收發消

原创 scrapy運行定量爬蟲

假設需求 現在大概有三千個scrapy的爬蟲文件,10臺機器,如何合理的分配爬蟲?什麼,這麼簡單的數學題還要問,一臺機器分300個爬蟲不就行了。確實,這樣分配最簡單也最直接,但會帶來一些問題。就比如,有些站點網頁少而有些網站很大,每個爬蟲運

原创 scrapyd的Windows管理客戶端

ScrapydManage GitHub地址:https://github.com/kanadeblisst/ScrapydManage 碼雲:https://gitee.com/kanadeblisst/ScrapydManage scr

原创 PC微信讀取微信好友列表(聯繫人)

開篇 PC微信端讀取聯繫人有三種常規方法: hook相關call來實現攔截聯繫人數據 讀取內存中的包含聯繫人的二叉樹結構 解密讀取微信本地數據庫 其實前兩種方法只是利用微信啓動後已經讀取聯繫人放到內存。第一種是攔截過程,第二種是直接獲取

原创 微信機器人之PC微信hook

微信機器人的實現有三種:web,app和exe。其中web很多賬號受限登錄不了,而hook app的話需要使用xposed則會封號,所以現在大部分機器人都是基於PC微信。 先實現一下最基本的機器人的功能:接收消息和發送消息。找相關call請

原创 scrapy配置參數(settings.py)

導入配置 如何優雅的導入scrapy中settings.py的配置參數呢?總不能用from scrapy import settings吧,或者from scrapy.settings import XXX吧。這看起來一點逼格都沒有。 sc

原创 scrapy項目管道(item pipeline)

scrapy提供了很多中間組件可以讓我們更加自定義想要的效果,比如項目管道(item pipeline),下載中間件(downloader middleware),蜘蛛中間件(spider middleware)等。通過更改或者添加的方式我

原创 knn識別簡單驗證碼

參考 https://www.biaodianfu.com/knn-captcha-recognition.html 內容大致一樣,只是根據自己的想法加入了一些改動 KNN(k近鄰算法) 算法原理請看:https://www.biaodia

原创 基於樸素貝葉斯識別簡單驗證碼

樸素貝葉斯定理 原理請參考: http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html https://www.cnblogs.com/TimVerion

原创 基於決策樹的簡單驗證碼識別

原理 核心思想:相似的輸入必會產生相似的輸出。 原理:首先從訓練樣本矩陣中選擇第一個特徵進行劃分,使每個子表中該特徵的值全部相同(比如第一個特徵是男女,則可以劃分出兩個子表,男表和女表),然後再在每個子表中選擇下一個特徵按照同樣的規則繼續劃

原创 驗證碼識別之二值化

前言 二值化顧名思義就是將數變成兩種值,一般非0即1。而在驗證碼處理中,如果直接使用灰度圖,那麼每個像素的值會在0-255,這樣肯定會增加計算時間,而二值化後每個像素的值只是0和1。 在前面的簡單驗證碼識別中,我的二值化代碼是這樣寫的:a