SMOTE（Synthetic Minority Over-Sampling Technique ，即“人工少數類過採樣法“）----Python調包簡單實現

一、SMOTE原理

SMOTE的全稱是Synthetic Minority Over-Sampling Technique 即“人工少數類過採樣法”，非直接對少數類進行重採樣，而是設計算法來人工合成一些新的少數樣本。

SMOTE步驟__1.選一個正樣本

紅色圈覆蓋

SMOTE步驟__2.找到該正樣本的K個近鄰（假設K = 3）

SMOTE步驟__3.隨機從K個近鄰中選出一個樣本

綠色的

SMOTE步驟__4.在正樣本和隨機選出的這個近鄰之間的連線上，隨機找一點。這個點就是人工合成的新正樣本了

二、調包實現

2.1 R調包實現_SMOTE

2.2 Python 調包實現_SMOTE

imblearn.over_sampling.SMOTE(

sampling_strategy = ‘auto’,

random_state = None, ## 隨機器設定

k_neighbors = 5, ## 用相近的 5 個樣本（中的一個）生成正樣本

m_neighbors = 10, ## 當使用 kind={'borderline1', 'borderline2', 'svm'}

out_step = ‘0.5’, ## 當使用kind = 'svm'

kind = 'regular', ## 隨機選取少數類的樣本

– borderline1：最近鄰中的隨機樣本b與該少數類樣本a來自於不同的類

– borderline2：隨機樣本b可以是屬於任何一個類的樣本;

– svm：使用支持向量機分類器產生支持向量然後再生成新的少數類樣本

svm_estimator = SVC(), ## svm 分類器的選取

n_jobs = 1, ## 使用的例程數，爲-1時使用全部CPU

ratio=None )

from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state = 42, n_jobs = -1)

x, y = sm.fit_sample(x_val, y_val)

僅用正樣本的K近鄰生成新正樣本是正是SMOTE方法，考慮到（SMOTE的最終目的是分清正負樣本的邊界），所以需要對樣本生成進行優化

2.2.1 SMOTE優化 borderline1 方法簡述

Dgr = [] # 危險集

for i in 正樣本：

      1) 計算點 i 在訓練集 D 上的 m 個最近鄰。

         x = i 的最近鄰中屬於負樣本的數量

      2) 如果 x = m，則 p 是一個噪聲

          next

      3) 如果 0 ≤ x ≤ m/2, 則說明p很安全

          next

      4) 如果 m/2 ≤ x ≤ m, 那麼點p就很危險了，我們需要在這個點附近生成一些新的少數類點

         Dgr.append(x)

最後，對於每個在危險集(Dgr)中的點，使用SMOTE算法生成新的樣本

2.2.2 SMOTE優化 borderline2 方法簡述

前面1-4步驟均同 borderline1 方法

在最後進行SMOTE的時候：

採用了比例分配生成新樣本

for i in Dgr:

    1) 正樣本 K 個近鄰

    2) 負樣本 K 個近鄰

    3) 正樣本 K 個近鄰選取 alpha 比例的樣本點

     和 i 作隨機的線性插值 ==>> 新正樣本點

    4) 負樣本K個近鄰選取 (1 - alpha) 比例的樣本點

     和 i 作隨機的線性插值 ==>> 新正樣本點

三、算法實現

#! /user/bin/python 3
# -*- coding: utf-8 -*-
# author: Scc_hy
# 2018-11-17
# SMOTE
from sklearn.neighbors import NearestNeighbors
import numpy as np 
import pandas as pd 
import copy
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

class TWO_SMOTE():
    """
    不平二分類人工插值法採樣
    """
    def __init__(self, 
                 K_neighbors = 5,
                 N_need = 200,
                 random_state = 42):
        self.K_neighbors = K_neighbors
        self.N_need = N_need
        self.random_state = 42
    

    def get_param_describe(self):
        print(
            "算法參數: \n"+
            'K_neighbors: 和正樣本相近的隨機樣本數' + "\n" +
            "N_need: 需要增加的正樣本數 (N_need // 100 * a)" + "\n" +
            "random_state: 隨機器設定" + "\n"
            "\nover_sample 參數：\n" +
            "x_data: 需要進行過採樣的全部數據集(非文本DataFrame)" + "\n" +
            "y_label: 類別標籤(非文本DataFrame.Series)"+ "\n" 
        )

    def div_data(self, x_data, y_label):
        """
        將數據依據類分開
        """
        tp = set(y_label)
        tp_less = [a for a in tp if sum(y_label == a) < sum(y_label != a)][0]
        data_less = x_data.iloc[y_label == tp_less, :]
        data_more = x_data.iloc[y_label != tp_less, :]
        tp.remove(tp_less)
        return data_less, data_more, tp_less, list(tp)[0]
    
    def get_SMOTE_sample(self, x_data, y_label):
        """
        獲取需要抽樣的正樣本
        """
        sample = []
        data_less, data_more, tp_less, tp_more = self.div_data(x_data, y_label)
        n_integ = self.N_need // 100
        data_add = copy.deepcopy(data_less)
        if n_integ == 0 :
            print('WARNING: PLEASE RE-ENTER N_need')
        else:
            for i in range(n_integ-1):
               data_out =  data_less.append(data_add)

        data_out.reset_index(inplace = True, drop = True)
        return data_out, tp_less

    def over_sample(self, x_data, y_label):
        """
        SMOTE算法簡單實現
        """
        sample, tp_less = self.get_SMOTE_sample(x_data, y_label)
        knn = NearestNeighbors(n_neighbors = self.K_neighbors ,n_jobs = -1).fit(sample)
        n_atters = x_data.shape[1]
        label_out = copy.deepcopy(y_label)
        new = pd.DataFrame(columns = x_data.columns)
        for i in range(len(sample)): # 1. 選擇一個正樣本
            # 2.選擇少數類中最近的K個樣本
            k_sample_index = knn.kneighbors(np.array(sample.iloc[i, :]).reshape(1, -1),
                                            n_neighbors = self.K_neighbors + 1,
                                            return_distance = False)

            # 計算插值樣本
            # 3.隨機選取K中的一個樣本
            np.random.seed(self.random_state)
            choice_all = k_sample_index.flatten()
            choosed = np.random.choice(choice_all[choice_all != 0])

            # 4. 在正樣本和隨機樣本之間選出一個點
            diff = sample.iloc[choosed,] - sample.iloc[i,]
            gap = np.random.rand(1, n_atters)
            new.loc[i] = [x for x in sample.iloc[i,] + gap.flatten() * diff]
            label_out = np.r_[label_out, tp_less]

        new_sample = pd.concat([x_data, new])
        new_sample.reset_index(inplace = True, drop = True)
        return new_sample, label_out

if __name__ == '__main__':
    iris = load_iris()
    irisdf = pd.DataFrame(data = iris.data, columns = iris.feature_names)     
    y_label = iris.target
    # 生成不平二分類數據
    iris_1 = irisdf.iloc[y_label == 1,]
    iris_2 = irisdf.iloc[y_label == 2,]
    iris_2imb = pd.concat([iris_1, iris_2.iloc[:10, :]])
    label_2imb =np.r_[y_label[y_label == 1], y_label[y_label == 2][:10]]
    iris_2imb.reset_index(inplace = True, drop = True)

    smt  = TWO_SMOTE()
    x_new, y_new = smt.over_sample(iris_2imb, label_2imb)

以上就是SMOTE的簡單實現，尚未有考慮到僅有 0 1變量，後期會更新

SMOTE（Synthetic Minority Over-Sampling Technique ，即“人工少數類過採樣法“）----Python調包簡單實現

一、SMOTE原理

SMOTE步驟__1.選一個正樣本

SMOTE步驟__2.找到該正樣本的K個近鄰（假設K = 3）

SMOTE步驟__3.隨機從K個近鄰中選出一個樣本

SMOTE步驟__4.在正樣本和隨機選出的這個近鄰之間的連線上，隨機找一點。這個點就是人工合成的新正樣本了

python gdal 安裝使用（Windows， python 3.6.8）

Linux學習筆記（13）

Linux學習筆記（11）

Linux學習筆記（12）

Python數據分析之pandas常用命令整理！

Win10+caffe+CUDA9.1+vs2013+Matlab2018b+GPU環境，跑通faster_rcnn-master

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結