類別不均衡問題

問題背景

機器學習建模分類問題裏,各個類別樣本量差異較大時,就會出現類別不均衡問題。e.g.如果有99999個無症狀病例,1個有症狀病例,即使訓練的學習器將所有樣本識別成無症狀病例,準確率也高達99.9%;但是這樣的學習器沒有任何價值,無任何鑑別有症狀病例的價值。

常用類別均衡方法

以下假設正例樣本數遠小於負例樣本數:

(1)欠採樣
欠採樣的代表做法是利用集成學習機制,將反例劃分成若干個集合 供不同學習器使用。

(2)過採樣
過採樣不能簡單地對正例樣本進行重複採樣,否則會導致嚴重的過擬合。過採樣的代表性算法爲SMOTE算法,即對訓練集裏的正例進行插值=>產生額外的正例

(3)閾值移動
通常,用分類器預測出的yy值與一個閾值進行比較,即y>0.5y>0.5判別爲正例,否則爲負例。yy是正例的概率,則正例、負例可能性的比值爲y1y\displaystyle\frac{y}{1-y}
如果正例和負例可能性相同,即閾值爲0.5,則分類器決策規則爲
y1y>1\displaystyle\frac{y}{1-y}>1,預測爲正例
如果正例數爲m+m^+,負例爲mm^-,則觀測機率是m+m\displaystyle\frac{m^+}{m^-},則分類器決策規則爲
y1y>m+m\displaystyle\frac{y}{1-y}>\frac{m^+}{m^-},預測爲正例

y1y=y1y×mm+>1\displaystyle\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^-}{m^+}>1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章