搜狗的驗證碼挺有趣的,干擾給滿分,今天不做方案,只做分享
【核心】重中之重:
樣本下載地址:[https://bbs.nightteam.cn/thread-149.htm](https://bbs.nightteam.cn/thread-149.htm)
一共17W樣本,性能再差的網絡也能識別的很好了
訓練並沒有什麼注意事項,但是印象中這個驗證碼發生過一次改動,尺寸修改,那麼如何應對這種變化而不用二次訓練呢?這纔是今天的主題
【提升模型的泛化能力——適應尺寸變化】
我們的樣本尺寸是單一的,通過觀察,我們得知,如果通過裁剪修改圖片比例容易丟失重要內容的像素,那麼我們可以反其道通過填充模擬:
下面列舉幾個方案:
方案一:
可以通過複製【紅色區域】向上延展圖片內容。——四個方向同理
方案二:
圖片拼接:怎麼說呢,我們可以手動篩選出部分字符,做一個圖像生成器,旋轉放大扭曲等等之後拼接於首位或末尾
方案三:
生成一部分尺寸不一,字體相近的驗證碼按一定的權重和樣本混合訓練
訓練流程
可以參見:
https://blog.csdn.net/kerlomz/article/details/86706542