特徵預處理
特徵預處理是數據預處理過程的重要步驟,是對數據的一個的標準的處理,幾乎所有的數據處理過程都會涉及該步驟。
數值型特徵無量綱化
無量綱化使不同規格的數據轉換到同一規格。常見的無量綱化方法有標準化和歸一化。
標準化:
標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈。
歸一化
MinMax歸一化:區間縮放法利用了邊界值信息,將屬性縮放到[0,1]
區間縮放法利用了邊界值信息,將屬性縮放到[0,1]
MaxAbs歸一化:單獨地縮放和轉換每個特徵,使得訓練集中的每個特徵的最大絕對值將爲1.0,將屬性縮放到[-1,1]。它不會移動/居中數據,因此不會破壞任何稀疏性。
正態分佈化(Normalization)
正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數爲1),如果要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。
數值型特徵特徵分箱(數據離散化)
離散化是數值型特徵非常重要的一個處理,其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的,爲了便於表示和在模型中處理,需要對連續值特徵進行離散化處理。
單獨地縮放和轉換每個特徵,使得訓練集中的每個特徵的最大絕對值將爲1.0,將屬性縮放到[-1,1]。它不會移動/居中數據,因此不會破壞任何稀疏性。
無監督分箱法
自定義分箱:自定義分箱,是指根據業務經驗或者常識等自行設定劃分的區間,然後將原始數據歸類到各個區間中。
等距分箱:按照相同寬度將數據分成幾等份。
等頻分箱:將數據分成幾等份,每等份數據裏面的個數是一樣的。
聚類分箱:基於k均值聚類的分箱。
二值化(Binarization):二值化可以將數值型(numerical)的feature進行閥值化得到boolean型數據。這對於下游的概率估計來說可能很有用(比如:數據分佈爲Bernoulli分佈時)。
有監督分箱法
卡方分箱法:自底向上的(即基於合併的)數據離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。
最小熵法分箱:需要使總熵值達到最小,也就是使分箱能夠最大限度地區分因變量的各類別。