風險大腦-支付風險識別天池大賽(番外篇)trick思路

  

默認無標籤的都是黑樣本。


        因爲案例背景中有說道,因爲風控系統會基於對交易的風險判斷而失敗掉很多高危交易,這些交易因爲被失敗了往往沒有了標籤,而這部分數據又極其重要。所以這裏我們可以相信既然系統都判斷你是高危交易了,我就直接認爲你是風險交易好了。相信螞蟻金服線上風險評估系統,沒毛病吧,哈哈。

        加上這次共994731條數據,有標籤的990006條(16847條有風險,973159條無風險),無標籤的數據有4725。無標籤認定爲風險數據也說得過去。

        這次換用xgboost加交叉驗證(kfold=5),得到混淆矩陣結果如下:


        可見對風險數據樣本召回真的是爆表啊(高達0.788),但是這模型太過分了,顯然是不行的,絕大多數交易都被認定成有風險的,如真實無風險的被判定爲無風險的有408條,真實無風險的被判定爲有風險點的則有292869條,如果這樣,應用肯定無法正常進行交易了。。。但我們可以用此模型去標記無標籤數據。寧可錯殺一百,不願放過一個。

        試了下,這樣確實可以提升模型效果。








發佈了40 篇原創文章 · 獲贊 117 · 訪問量 23萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章