機器學習：正負樣本數據量不平衡處理方法

原創

2019-03-26 12:59

無偏採樣：意味着真實樣本總體的類別比例在訓練集中得以保持。

在訓練集中正反例數目不同時，令 $m^{+}$ 表示正例數目， $m^{-}$ 表示反例數目，觀測機率爲 $\frac{m^{+}}{m^{-}}$ ，，我們假設訓練集是真是樣本總體的無偏採樣，因此觀測機率就代表了真實機率。只要分類器的預測機率高於觀測機率就應判定爲正例，即

若 $\frac{y}{1-y}>\frac{m^{+}}{m^{-}}$ ，則預測爲正例。

再縮放（再平衡）： $\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^{-}}{m^{+}}$ （1）。

再縮放思想雖然簡單，但是實際操作卻不平凡，主要因爲無偏採樣的假設往往不成立，就是說我們未必能有效的基於訓練集觀測機率來推斷出真實機率。現有技術上大體上有三類做法：欠採樣（下采樣），過採樣（上採樣），閾值移動。

欠採樣：若隨機丟失反例，可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學習機制，將多數類樣本劃分若干個集合供不同學習器使用，這樣對每個學習器來看都進行了欠採樣，但在全局來看不會丟失信息。

過採樣：不能簡單的對初始樣本進行重複採樣，否則會招致嚴重的過擬合。代表性算法SMOTE，對訓練集裏的樣本進行插值產生額外樣本。

閾值移動：直接基於原始訓練集進行學習，但在用訓練好的分類器進行預測時，將式（1）嵌入決策過程中。

解決這類問題主要分重採樣、欠採樣、調整權值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.