奇蹟驗證碼少樣本高精度驗證測試。基於新浪微博驗證碼的測試

奇蹟驗證碼少樣本高精度驗證測試。基於新浪微博驗證碼的測試

 

 

一、隨機下載1萬張樣本

https://login.sina.com.cn/cgi/pin.php?r=70412354&s=0&p=yf-f6962486e45271dd2340f89218858850d127

二、把樣本分爲三部分

第一部分A =8614+150張(其中150張是有一定特徵的,有代表性的)合計8764張,簡稱8700樣本

第二部分B =1145+150張(其中150張是有一定特徵的,有代表性的,這150張與第一部分是同一批樣本。)合計1295張,簡稱1300樣本

還有少量第三部分C =91張無意義樣本,比如缺字的,重疊比較厲害的,這些樣本後面作爲測試最終模型的識別率作爲參考,簡稱無意義樣本

 

以上的樣本均人工標記,不保證100%正確。

 

三、分別訓練兩個模型,訓練完畢聯網登錄,登錄成功就是對的

其中8700的模型聯網登錄實測,66個錯的,934個對的,實測成功率93.4%;

其中1300的模型聯網登錄實測,145個錯的,855個對的,實測成功率85.5%。

四、兩個模型分別聯網繼續下載樣本,繼續以全新全正確樣本進行訓練。

其中8700擴充的模型聯網登錄實測, ;

其中1300擴充的模型聯網登錄實測,40個錯,2040個對,實測成功率98.1%(錯的基本上是殘缺的,估計肉眼也不認識) 。

之前識別錯誤的都能正確識別。

 

五、終極測試,用300樣本訓練,待續......

批量下載自動標註測試器 

 

以上原始樣本集標記用到自動標記工具,

驗證碼 樣本批量下載 自動標註  萬能英數驗證碼 識別庫

 

博客地址:https://blog.csdn.net/qq_41895190

 
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章