數據歸一化處理

在機器學習中領域中的數據分析之前,通常需要將數據標準化,利用標準化後得數據進行數據分析。不同評價指標往

往具不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,爲了消除指標之間的量綱影響,需要進行數據

標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理後,各指標處於同一數量級,適合進行綜

合對比評價。

 

Contents

 

   1. 歸一化的定義

   2. 常用歸一化方法

 

 

1. 歸一化的定義

 

   歸一化用一句話說就是:把數據經過處理後使之限定在一定的範圍內。比如通常限制在區間[0, 1]或者[-1, 1]

   等等。那麼爲什麼要進行歸一化呢? 那麼首先要說到一個重要的概念,即奇異樣本數據。所謂奇異樣本數據數據

   指的是相對於其他輸入樣本特別大或特別小的樣本矢量。舉個例子,比如下面的兩個特徵樣本數據

 

   

 

   上面第五列的數據相對於其它的列的數據就是奇異樣本數據,奇異樣本數據的存在會引起訓練時間增大,並可能引

   起無法收斂。所以在存在奇異樣本數據的情況下,進行訓練之前最好進行歸一化,如果不存在奇異樣本數據,則可

   以不用歸一化。

 

 

2. 常用歸一化方法

 

   常用歸一化方法有最大-最小標準化Z-score標準化函數轉化等等。

 

   (1)最大-最小標準化

 

       最大-最小標準化是對原始數據進行線性變換,設分別是屬性的最小值和最大值,將

       一個原始值通過最大-最小標準化映射到區間[0, 1]的值,那麼公式如下

 

        

 

   (2)Z-score標準化

 

       Z-score標準化是基於原始數據的均值和標準差進行的數據標準化。將屬性的原始數據通過Z-score標

       準化成。Z-score標準化適用於屬性的最大值或者最小值未知的情況,或有超出取值範圍的離散數據的

       情況。

      

       

 

       其中爲均值,爲標準差。

 

       Z-score標準化得到的結果是所有數據都聚集在0附近,方差爲1。

 

   還有一些歸一化方法,如對數函數轉換,反餘切函數轉換等方法用的不多,暫時就不講了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章