機器學習:正負樣本數據量不平衡處理方法

無偏採樣:意味着真實樣本總體的類別比例在訓練集中得以保持。

在訓練集中正反例數目不同時,令m^{+}表示正例數目,m^{-}表示反例數目,觀測機率爲\frac{m^{+}}{m^{-}},,我們假設訓練集是真是樣本總體的無偏採樣,因此觀測機率就代表了真實機率。只要分類器的預測機率高於觀測機率就應判定爲正例,即

                                           若\frac{y}{1-y}>\frac{m^{+}}{m^{-}} ,則預測爲正例。

再縮放(再平衡):\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^{-}}{m^{+}}             (1)。

再縮放思想雖然簡單,但是實際操作卻不平凡,主要因爲無偏採樣的假設往往不成立,就是說我們未必能有效的基於訓練集觀測機率來推斷出真實機率。現有技術上大體上有三類做法:欠採樣(下采樣),過採樣(上採樣),閾值移動。

欠採樣:若隨機丟失反例,可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學習機制,將多數類樣本劃分若干個集合供不同學習器使用,這樣對每個學習器來看都進行了欠採樣,但在全局來看不會丟失信息。

過採樣:不能簡單的對初始樣本進行重複採樣,否則會招致嚴重的過擬合。代表性算法SMOTE,對訓練集裏的樣本進行插值產生額外樣本。

閾值移動:直接基於原始訓練集進行學習,但在用訓練好的分類器進行預測時,將式(1)嵌入決策過程中。

解決這類問題主要分重採樣、欠採樣、調整權值 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章