數據預處理與特徵工程總結

特徵預處理

​ 特徵預處理是數據預處理過程的重要步驟,是對數據的一個的標準的處理,幾乎所有的數據處理過程都會涉及該步驟。

數值型特徵無量綱化

​ 無量綱化使不同規格的數據轉換到同一規格。常見的無量綱化方法有標準化和歸一化。

標準化:

​ 標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈。

歸一化

​ MinMax歸一化:區間縮放法利用了邊界值信息,將屬性縮放到[0,1]

區間縮放法利用了邊界值信息,將屬性縮放到[0,1]

​ MaxAbs歸一化:單獨地縮放和轉換每個特徵,使得訓練集中的每個特徵的最大絕對值將爲1.0,將屬性縮放到[-1,1]。它不會移動/居中數據,因此不會破壞任何稀疏性。

正態分佈化(Normalization)

​ 正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數爲1),如果要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

數值型特徵特徵分箱(數據離散化)

​ 離散化是數值型特徵非常重要的一個處理,其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的,爲了便於表示和在模型中處理,需要對連續值特徵進行離散化處理。

單獨地縮放和轉換每個特徵,使得訓練集中的每個特徵的最大絕對值將爲1.0,將屬性縮放到[-1,1]。它不會移動/居中數據,因此不會破壞任何稀疏性。

無監督分箱法

​ 自定義分箱:自定義分箱,是指根據業務經驗或者常識等自行設定劃分的區間,然後將原始數據歸類到各個區間中。

​ 等距分箱:按照相同寬度將數據分成幾等份。

​ 等頻分箱:將數據分成幾等份,每等份數據裏面的個數是一樣的。

​ 聚類分箱:基於k均值聚類的分箱。

​ 二值化(Binarization):二值化可以將數值型(numerical)的feature進行閥值化得到boolean型數據。這對於下游的概率估計來說可能很有用(比如:數據分佈爲Bernoulli分佈時)。

有監督分箱法

​ 卡方分箱法:自底向上的(即基於合併的)數據離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。

​ 最小熵法分箱:需要使總熵值達到最小,也就是使分箱能夠最大限度地區分因變量的各類別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章