最近在編程序的時候碰到了不平衡的數據,在處理這類數據的時候可以有以下三種方法:
第一種:上採樣
是指把小衆類的樣本複製多份。
第二種:下采樣
是從多數類樣本剔除掉一部分或將大多數的樣本選取部分樣本
第三種:SMOTE方法
其中smote方法是上採樣中最常用到的方法。他的思想是合成新的少數類的樣本,合成的策略是對每一個少數類樣本a,從他的最近領域中隨機選擇一個樣本b(這個樣本還是少類樣本中的一個),然後在a和b之間的聯想上隨機選擇一點作爲新合成的少數類樣本。
最近在編程序的時候碰到了不平衡的數據,在處理這類數據的時候可以有以下三種方法:
第一種:上採樣
是指把小衆類的樣本複製多份。
第二種:下采樣
是從多數類樣本剔除掉一部分或將大多數的樣本選取部分樣本
第三種:SMOTE方法
其中smote方法是上採樣中最常用到的方法。他的思想是合成新的少數類的樣本,合成的策略是對每一個少數類樣本a,從他的最近領域中隨機選擇一個樣本b(這個樣本還是少類樣本中的一個),然後在a和b之間的聯想上隨機選擇一點作爲新合成的少數類樣本。
// XGBOOST測試 //調用形式 // /opt/app/spark-1.6.1/bin/spark-shell --master yar
# -*- coding: utf-8 -*- """ Created on Mon Nov 28 13:22:08 2016 @author: y