數據歸一化兩種常用的方法

數據標準化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,爲了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:

一、min-max標準化(Min-Max Normalization)

也稱爲離差標準化,是對原始數據的線性變換,使結果映射到[0 - 1]之間,轉換函數如下:
x=xminmaxmin x^* = \frac {x - min} {max-min}
其中 max爲樣本數據的最大值, min爲樣本數據的最小值,這種方法有個缺陷,就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

二、Z-score標準化法

這種方法給予原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,轉化函數爲:
x=xμσ x^* = \frac {x - \mu} {\sigma}
其中μ\mu爲所有樣本數據的平均值,σ\sigma爲所有樣本的標準差

參考:http://webdataanalysis.net/data-analysis-method/data-normalization/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章