常見特徵縮放方法詳解（含義、作用、適用場景）

原創

2020-06-16 09:43

　　特徵縮放主要是爲了將獨立變量集或數據特徵向量的取值限定在一定的範圍內，通常發生在數據預處理階段。在機器學習算法中，特徵矩陣各個維度的取值通常是不一樣的，此時如果採用歐幾里得距離來衡量兩個特徵的距離，那麼最終的距離將嚴重取決於取值範圍跨度大的特徵維度，比如說在代表人屬性的特徵向量有兩個維度，分別是年齡和身高，其中年齡的取值範圍可以是[1, 100]，身高的取值範圍是[0.4, 2.5]（單位：米），那麼兩個特徵向量的距離將嚴重取決於年齡這個特徵，身高基本上對兩者的距離沒有太大的影響。

　　從以上示例中可以看出，年齡、身高等有量綱量對學習算法的性能有着重要的影響，因此對輸入特徵矩陣進行特徵縮放，將其轉化爲無量綱量是很多學習算法必要的操作，主要具有以下幾個特點：

縮放後的特徵矩陣，各個維度都具有相同的重要性。
可以加快梯度下降的收斂速度。
可以加快支持向量機的速度，但是會影響最終的結果。

　　由於翻譯的原因，在國內通常使用歸一化（Normalization）和標準化（Standardization）這兩個術語來表示特徵縮放這個操作，爲了避免中文術語上的混亂，將採用維基百科上的英文術語，包括以下四種方法：

Rescaling (min-max normalization)
Mean normalization
Standardization (Z-score Normalization)
Scaling to unit length

Rescaling (min-max normalization)

　　即通常所說的歸一化。該方法也稱爲最小-最大值縮放，是一種最簡單的縮放方法，主要功能是將特徵值縮放到區間[0, 1]，其計算公式如下所示：
$x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}$ 其中， $x$ 表示原始值， $\min (x)$ 表示該特徵維度的最小值， $\max (x)$ 表示該特徵維度的最大值， $x^{\prime}$ 表示縮放後的值。該方法具有更加泛化的形式，即將特徵值縮放到區間[a, b]之間，其計算公式如下所示： $x^{\prime}=a+\frac{x-\min (x)}{\max (x)-\min (x)}(b-a)$ 其中， $b$ 表示縮放後的最大值， $a$ 表示縮放後的最小值。

Mean normalization

　　其計算公式如下所示：
$x^{\prime}=\frac{x-\text { average }(x)}{\max (x)-\min (x)}$ 其中， $\text { average }(x)$ 表示特徵維度 $x$ 的均值。

Standardization (Z-score Normalization)

　　即通常所說的標準化。該方法的主要功能是將數據按比例縮放，使之落入一個小的特定區間，可以使得輸入數據的每個特徵維度都具有均值0、方差1的性質，被廣泛地應用於各種機器學習算法（如支持向量機、邏輯迴歸和人工神經網絡）中，其計算公式如下所示：
$x^{\prime}=\frac{x-\bar{x}}{\sigma}$ 其中， $\bar{x}=\text { average }(x)$ 表示特徵維度 $x$ 的均值， $\sigma$ 表示特徵向量 $x$ 的標準差。

Scaling to unit length

　　該方法主要將各個特徵值除以當前特徵維度的歐幾里得長度，被廣泛地應用於機器學習領域，其計算公式如下所示：
$x^{\prime}=\frac{x}{\|x\|}$ 其中， $\|x\|$ 表示當前維度的歐幾里得長度。在某些情況下（如Histogram features），可以使用 $L1$ 範數來代替 $\|x\|$ ，特別是在後續步驟中採用Scalar Metric作爲距離度量方式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

常見特徵縮放方法詳解（含義、作用、適用場景）

Rescaling (min-max normalization)

Mean normalization

Standardization (Z-score Normalization)

Scaling to unit length

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

ICML 2019 Accepted Papers (Title, Author, Abstract, Code) (001-150)

【Java學習】Java方法的靜態綁定與動態綁定講解

【Java學習】java語言的執行模式--半編譯和半解釋型

常見特徵縮放方法詳解（含義、作用、適用場景）

【深度學習】batch_size的作用

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結