無偏採樣:意味着真實樣本總體的類別比例在訓練集中得以保持。
在訓練集中正反例數目不同時,令表示正例數目,表示反例數目,觀測機率爲,,我們假設訓練集是真是樣本總體的無偏採樣,因此觀測機率就代表了真實機率。只要分類器的預測機率高於觀測機率就應判定爲正例,即
若 ,則預測爲正例。
再縮放(再平衡): (1)。
再縮放思想雖然簡單,但是實際操作卻不平凡,主要因爲無偏採樣的假設往往不成立,就是說我們未必能有效的基於訓練集觀測機率來推斷出真實機率。現有技術上大體上有三類做法:欠採樣(下采樣),過採樣(上採樣),閾值移動。
欠採樣:若隨機丟失反例,可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學習機制,將多數類樣本劃分若干個集合供不同學習器使用,這樣對每個學習器來看都進行了欠採樣,但在全局來看不會丟失信息。
過採樣:不能簡單的對初始樣本進行重複採樣,否則會招致嚴重的過擬合。代表性算法SMOTE,對訓練集裏的樣本進行插值產生額外樣本。
閾值移動:直接基於原始訓練集進行學習,但在用訓練好的分類器進行預測時,將式(1)嵌入決策過程中。
解決這類問題主要分重採樣、欠採樣、調整權值