默認無標籤的都是黑樣本。
因爲案例背景中有說道,因爲風控系統會基於對交易的風險判斷而失敗掉很多高危交易,這些交易因爲被失敗了往往沒有了標籤,而這部分數據又極其重要。所以這裏我們可以相信既然系統都判斷你是高危交易了,我就直接認爲你是風險交易好了。相信螞蟻金服線上風險評估系統,沒毛病吧,哈哈。
加上這次共994731條數據,有標籤的990006條(16847條有風險,973159條無風險),無標籤的數據有4725。無標籤認定爲風險數據也說得過去。
這次換用xgboost加交叉驗證(kfold=5),得到混淆矩陣結果如下:
可見對風險數據樣本召回真的是爆表啊(高達0.788),但是這模型太過分了,顯然是不行的,絕大多數交易都被認定成有風險的,如真實無風險的被判定爲無風險的有408條,真實無風險的被判定爲有風險點的則有292869條,如果這樣,應用肯定無法正常進行交易了。。。但我們可以用此模型去標記無標籤數據。寧可錯殺一百,不願放過一個。
試了下,這樣確實可以提升模型效果。