機器學習中一些常用方法的說明

持續更新。。。歡迎批評

很多方法講的都是原理，雖然講的很對，但是看不懂，也不說這個東西是幹嘛用的，就知道使用而使用，知道是用來幹嘛的，纔想去看原理

1.歸一化

防止數據傾斜，導致所佔比重過大。將原始數據線性化的方法轉換到[0 1]的範圍，該方法實現對原始數據的等比例縮放。通過利用變量取值的最大值和最小值（或者最大值）將原始數據轉換爲界於某一特定範圍的數據，從而消除量綱和數量級影響。

2.正則化（`normalize`）

3. one-hot編碼

4.數據標準化

在現實生活中，一個目標變量（y）可以認爲是由多個特徵變量（x）影響和控制的，那麼這些特徵變量的量綱和數值的量級就會不一樣，比如x1 = 10000，x2 = 1，x3 = 0.5 可以很明顯的看出特徵x1和x2、x3存在量綱的差距；x1對目標變量的影響程度將會比x2、x3對目標變量的影響程度要大（可以這樣認爲目標變量由x1掌控，x2，x3影響較小，一旦x1的值出現問題，將直接的影響到目標變量的預測，把目標變量的預測值由x1獨攬大權，會存在高風險的預測）而通過標準化處理，可以使得不同的特徵變量具有相同的尺度（也就是說將特徵的值控制在某個範圍內），這樣目標變量就可以由多個相同尺寸的特徵變量進行控制，這樣，在使用梯度下降法學習參數的時候，不同特徵對參數的影響程度就一樣了。比如在訓練神經網絡的過程中，通過將數據標準化，能夠加速權重參數的收斂。
簡而言之：對數據標準化的目的是消除特徵之間的差異性，便於特徵一心一意學習權重。

數據標準化與歸一化的區別：

數據歸一化是數據標準化的一種典型做法,即將數據統一映射到[0,1]區間上

數據的標準化是指將數據按照比例縮放,使之落入一個特定的區間.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習中一些常用方法的說明

1.歸一化

2.正則化（`normalize`）

3. one-hot編碼

4.數據標準化

數據標準化與歸一化的區別：

自學編程兩個月，現在我月入 4 萬元

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

算法--分類算法

算法之路--線性迴歸（五）

算法之路--隨機森林

機器學習中一些常用方法的說明

sklearn與其他算法集合使用步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習中一些常用方法的說明

1.歸一化

2.正則化（normalize）

3. one-hot編碼

4.數據標準化

數據標準化與歸一化的區別：

2.正則化（`normalize`）