機器學習中一些常用方法的說明

持續更新。。。歡迎批評

  很多方法講的都是原理,雖然講的很對,但是看不懂,也不說這個東西是幹嘛用的,就知道使用而使用,知道是用來幹嘛的,纔想去看原理

1.歸一化

  防止數據傾斜,導致所佔比重過大。將原始數據線性化的方法轉換到[0 1]的範圍,該方法實現對原始數據的等比例縮放。通過利用變量取值的最大值和最小值(或者最大值)將原始數據轉換爲界於某一特定範圍的數據,從而消除量綱和數量級影響。

2.正則化(normalize

3. one-hot編碼

4.數據標準化

在現實生活中,一個目標變量(y)可以認爲是由多個特徵變量(x)影響和控制的,那麼這些特徵變量的量綱和數值的量級就會不一樣,比如x1 = 10000,x2 = 1,x3 = 0.5 可以很明顯的看出特徵x1和x2、x3存在量綱的差距;x1對目標變量的影響程度將會比x2、x3對目標變量的影響程度要大(可以這樣認爲目標變量由x1掌控,x2,x3影響較小,一旦x1的值出現問題,將直接的影響到目標變量的預測,把目標變量的預測值由x1獨攬大權,會存在高風險的預測)而通過標準化處理,可以使得不同的特徵變量具有相同的尺度(也就是說將特徵的值控制在某個範圍內),這樣目標變量就可以由多個相同尺寸的特徵變量進行控制,這樣,在使用梯度下降法學習參數的時候,不同特徵對參數的影響程度就一樣了。比如在訓練神經網絡的過程中,通過將數據標準化,能夠加速權重參數的收斂。
簡而言之:對數據標準化的目的是消除特徵之間的差異性,便於特徵一心一意學習權重。
 

數據標準化與歸一化的區別:

   數據歸一化是數據標準化的一種典型做法,即將數據統一映射到[0,1]區間上

   數據的標準化是指將數據按照比例縮放,使之落入一個特定的區間.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章