主成分分析（PCA）

原創

NLP_小书童

2018-08-28 12:07

定義

PCA的思想是將n維特徵映射到k維上（k

背景

在機器學習過程中，第一步就是數據的處理。在大多數機器學習課程中，爲了簡化理解，前幾節課都是隻選取1~2個特徵量。如此則引出問題，如果特徵量多的話怎麼辦。在分析迴歸問題時，引入梯度下降法，該方法對於n個特徵均成立。同時也發現，可以用矩陣的方式解出theta的值。不過強調了 **特徵矩陣X的轉制矩陣（XT ）與特徵矩陣X的乘積要可逆。（當然利用Octave，即使不可逆，也能求出解，不過理論上不成立）

數學知識

在此引入一個數學問題，一個矩陣A什麼時候不可逆，簡單來說，就是矩陣的秩小於矩陣的行數。也就是說至少存在兩個變量是線性相關的。舉例，如果以“米”爲單位計算長度，和以“釐米”爲單位計算長度做特徵，兩個特徵之間有線性關係，一定要除掉一個特徵。
如果兩個特徵關係越強，就越不獨立，兩者相互影響就越強，既其協方差越大。因爲特徵不止一個，所以我們求得是一個協方差矩陣，和“特徵向量”。

直觀理解

如圖所示這是一個2維的分佈圖，我們發現在V1 方向上數據分佈的比較分散，在V2 方向上分佈的比較集中，當最極端時，V2 方向上只存在一個點，此時2維分佈變爲1維分佈。降維成功。V1 方向就是協方差矩陣的特徵向量。

總結流程

得到數據
去中心化
求協方差矩陣
求特徵值及特徵向量
定閾值，取前K個特徵值。
向特徵向量投影

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

主成分分析（PCA）

定義

背景

數學知識

直觀理解

總結流程

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

nodejs學習06——小案例

以太坊構建節點集羣流程，多節點智能合約，常見錯誤及處理手段

區塊鏈-以太坊-構建私有鏈

貝葉斯公式先驗概率後驗概率（詳細）

精確率召回率 F1（詳細）

Sodility配置本地IDE和共享目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結