數據預處理與特徵工程總結

原創

2020-03-17 03:51

特徵預處理是數據預處理過程的重要步驟，是對數據的一個的標準的處理，幾乎所有的數據處理過程都會涉及該步驟。

無量綱化使不同規格的數據轉換到同一規格。常見的無量綱化方法有標準化和歸一化。

標準化的前提是特徵值服從正態分佈，標準化後，其轉換成標準正態分佈。

MinMax歸一化：區間縮放法利用了邊界值信息，將屬性縮放到[0,1]

區間縮放法利用了邊界值信息，將屬性縮放到[0,1]

MaxAbs歸一化：單獨地縮放和轉換每個特徵，使得訓練集中的每個特徵的最大絕對值將爲1.0，將屬性縮放到[-1,1]。它不會移動/居中數據，因此不會破壞任何稀疏性。

正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數爲1)，如果要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

離散化是數值型特徵非常重要的一個處理，其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的，爲了便於表示和在模型中處理，需要對連續值特徵進行離散化處理。

單獨地縮放和轉換每個特徵，使得訓練集中的每個特徵的最大絕對值將爲1.0，將屬性縮放到[-1,1]。它不會移動/居中數據，因此不會破壞任何稀疏性。

自定義分箱：自定義分箱，是指根據業務經驗或者常識等自行設定劃分的區間，然後將原始數據歸類到各個區間中。

等距分箱：按照相同寬度將數據分成幾等份。

等頻分箱：將數據分成幾等份，每等份數據裏面的個數是一樣的。

聚類分箱：基於k均值聚類的分箱。

二值化（Binarization）：二值化可以將數值型（numerical）的feature進行閥值化得到boolean型數據。這對於下游的概率估計來說可能很有用（比如：數據分佈爲Bernoulli分佈時）。

卡方分箱法：自底向上的(即基於合併的)數據離散化方法。它依賴於卡方檢驗：具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。

最小熵法分箱：需要使總熵值達到最小，也就是使分箱能夠最大限度地區分因變量的各類別。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.