奇蹟驗證碼少樣本高精度驗證測試。基於新浪微博驗證碼的測試
一、隨機下載1萬張樣本
https://login.sina.com.cn/cgi/pin.php?r=70412354&s=0&p=yf-f6962486e45271dd2340f89218858850d127
二、把樣本分爲三部分
第一部分A =8614+150張(其中150張是有一定特徵的,有代表性的)合計8764張,簡稱8700樣本
第二部分B =1145+150張(其中150張是有一定特徵的,有代表性的,這150張與第一部分是同一批樣本。)合計1295張,簡稱1300樣本
還有少量第三部分C =91張無意義樣本,比如缺字的,重疊比較厲害的,這些樣本後面作爲測試最終模型的識別率作爲參考,簡稱無意義樣本
以上的樣本均人工標記,不保證100%正確。
三、分別訓練兩個模型,訓練完畢聯網登錄,登錄成功就是對的
其中8700的模型聯網登錄實測,66個錯的,934個對的,實測成功率93.4%;
其中1300的模型聯網登錄實測,145個錯的,855個對的,實測成功率85.5%。
四、兩個模型分別聯網繼續下載樣本,繼續以全新全正確樣本進行訓練。
其中8700擴充的模型聯網登錄實測, ;
其中1300擴充的模型聯網登錄實測,40個錯,2040個對,實測成功率98.1%(錯的基本上是殘缺的,估計肉眼也不認識) 。
之前識別錯誤的都能正確識別。
五、終極測試,用300樣本訓練,待續......
批量下載自動標註測試器
以上原始樣本集標記用到自動標記工具,
驗證碼 樣本批量下載 自動標註 萬能英數驗證碼 識別庫
博客地址:https://blog.csdn.net/qq_41895190