類別不均衡問題

原創

2020-06-21 21:23

問題背景

機器學習建模分類問題裏，各個類別樣本量差異較大時，就會出現類別不均衡問題。e.g.如果有99999個無症狀病例，1個有症狀病例，即使訓練的學習器將所有樣本識別成無症狀病例，準確率也高達99.9%；但是這樣的學習器沒有任何價值，無任何鑑別有症狀病例的價值。

常用類別均衡方法

以下假設正例樣本數遠小於負例樣本數：

（1）欠採樣
欠採樣的代表做法是利用集成學習機制，將反例劃分成若干個集合供不同學習器使用。

（2）過採樣
過採樣不能簡單地對正例樣本進行重複採樣，否則會導致嚴重的過擬合。過採樣的代表性算法爲SMOTE算法，即對訓練集裏的正例進行插值=>產生額外的正例。

（3）閾值移動
通常，用分類器預測出的 $y$ 值與一個閾值進行比較，即 $y>0.5$ 判別爲正例，否則爲負例。 $y$ 是正例的概率，則正例、負例可能性的比值爲 $\displaystyle\frac{y}{1-y}$ 。
如果正例和負例可能性相同，即閾值爲0.5，則分類器決策規則爲
$\displaystyle\frac{y}{1-y}>1，預測爲正例$
如果正例數爲 $m^+$ ，負例爲 $m^-$ ，則觀測機率是 $\displaystyle\frac{m^+}{m^-}$ ，則分類器決策規則爲
$\displaystyle\frac{y}{1-y}>\frac{m^+}{m^-}，預測爲正例$
即
$\displaystyle\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^-}{m^+}>1$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最小二乘法、最大似然估計和卡爾曼濾波

一、最小二乘法和最大似然估計最小二乘法可以從Cost/Loss function角度去想，這是統計（機器）學習裏面一個重要概念，一般建立模型就是讓loss function最小，而最小二乘法可以認爲是 loss function = （

2020-06-23 11:56:07

機器學習算法相關list

感知機perceptron k近鄰法k-nearest neighbor 樸素貝葉斯法naive Bayes 決策樹decision tree 決策樹缺失值處理方法邏輯斯諦迴歸與最大熵模型logistic regression/

2020-06-21 21:23:46

深度學習算法相關list

前饋神經網絡，BP算法 NN/BP 卷積神經網絡(Convolutional Neural Network, CNN) 循環神經網絡(Recurrent Neural Network, RNN)與LSTM RNN/LSTM 深度前

2020-06-21 21:23:46

相對熵 KL散度（KullbackLeibler divergence）

這個屬於香農信息論中的東西，在《PRML》書中1.6 信息論小節中有具體說明。真正碰到應用還是在洛桑聯邦理工的POM文章中（概率佔用圖）。作者使用自己產生的估計Q來去逼近未知分佈P，其中P是一個後驗概率分佈。這篇博文旨在明確KL散度的定義

超级无敌小小顺利

2020-06-16 04:05:31

洛桑聯邦理工 TPAMI-2008 MTMC 概率佔用圖POM建模過程推導筆記

一切都要從2019年9月的那個秋天講起，林野哥向我推薦了這篇洛桑聯邦理工的2008年TPAMI論文，於是一個半月的時間都花在了這上面。Multi-Camera People Tracking with a Probabilistic O

超级无敌小小顺利

2020-06-16 04:05:31

《最優化理論與算法》最優化條件部分學習感悟

最優化學到了最優化條件部分，由於自己的數學功底實在是太差，啃得很慢。今天下午終於對“約束極值問題的最優性條件”部分有了相對宏觀的視角，所以記錄下來以備後用。【必要條件】：如果已經知道了是最優解，那麼它一定滿足的條件。最優化中通常都

超级无敌小小顺利

2020-06-16 04:05:31

Kalman Filter原理簡介及C++實現

本博文內容參考了北卡羅來納大學教堂山分校的文章 An Introduction to the Kalman Filter。目錄一、Kalman Filter簡介二、估計與觀測過程三、KF的計算起源（Computational O

超级无敌小小顺利

2020-06-16 04:05:31

手動實現讀寫鎖(線程級)

讀寫鎖是共享獨佔鎖。讀鎖是共享鎖：讀的同時不能寫，但同時可以多個進程一起讀。寫鎖是獨佔鎖：同時只能有一個進程進行寫。利用庫函數寫模式： pthread_rwlock_wrlock(&rwlock); //加寫鎖寫

2020-06-06 13:53:15

移動最小二乘原理

钢铁侠是怎么练成的

2020-05-22 20:56:46

PFH和FPFH的算法原理

钢铁侠是怎么练成的

2020-05-22 20:56:46

密碼學硬核筆記——特殊離散對數問題

丶坚持不懈

2020-05-15 14:58:23

軌跡規劃 - 梯形速度分佈

2020-05-07 14:14:32

助你穩過高校離散結構 --（系列一）

2020-05-06 06:48:09

粒子濾波器的Matlab實現

2020-05-04 09:29:35

線性同餘定理（數論日常2）

丶坚持不懈

2020-04-20 17:04:30

24小時熱門文章

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

最新文章

最新評論文章