問題背景
機器學習建模分類問題裏,各個類別樣本量差異較大時,就會出現類別不均衡問題。e.g.如果有99999個無症狀病例,1個有症狀病例,即使訓練的學習器將所有樣本識別成無症狀病例,準確率也高達99.9%;但是這樣的學習器沒有任何價值,無任何鑑別有症狀病例的價值。
常用類別均衡方法
以下假設正例樣本數遠小於負例樣本數:
(1)欠採樣
欠採樣的代表做法是利用集成學習機制,將反例劃分成若干個集合 供不同學習器使用。
(2)過採樣
過採樣不能簡單地對正例樣本進行重複採樣,否則會導致嚴重的過擬合。過採樣的代表性算法爲SMOTE算法,即對訓練集裏的正例進行插值=>產生額外的正例。
(3)閾值移動
通常,用分類器預測出的值與一個閾值進行比較,即判別爲正例,否則爲負例。是正例的概率,則正例、負例可能性的比值爲。
如果正例和負例可能性相同,即閾值爲0.5,則分類器決策規則爲
如果正例數爲,負例爲,則觀測機率是,則分類器決策規則爲
即