定義
PCA的思想是將n維特徵映射到k維上(k
背景
在機器學習過程中,第一步就是數據的處理。在大多數機器學習課程中,爲了簡化理解,前幾節課都是隻選取1~2個特徵量。如此則引出問題,如果特徵量多的話怎麼辦。在分析迴歸問題時,引入梯度下降法,該方法對於n個特徵均成立。同時也發現,可以用矩陣的方式解出theta的值。不過強調了 **特徵矩陣X的轉制矩陣(
數學知識
在此引入一個數學問題,一個矩陣A什麼時候不可逆,簡單來說,就是矩陣的秩小於矩陣的行數。也就是說至少存在兩個變量是線性相關的。舉例,如果以“米”爲單位計算長度,和以“釐米”爲單位計算長度做特徵,兩個特徵之間有線性關係,一定要除掉一個特徵。
如果兩個特徵關係越強,就越不獨立,兩者相互影響就越強,既其協方差越大。因爲特徵不止一個,所以我們求得是一個協方差矩陣,和“特徵向量”。
直觀理解
如圖所示這是一個2維的分佈圖,我們發現在
總結流程
- 得到數據
- 去中心化
- 求協方差矩陣
- 求特徵值及特徵向量
- 定閾值,取前K個特徵值。
- 向特徵向量投影