PCA (能量最大)
高維數據降維
優化目標:選擇k個單位正交基,使得原始數據變換到這些基上後,各特徵亮亮協方差爲0,每一特徵方差儘可能大
1 原理
1.1 數據的表示方式—–向量
以二維空間爲例,空間中的一個點可以表示爲一個二維向量,向量中的每個值分別是向量在以座標軸爲基方向上的投影。上升到多維空間,分別是向量在每個基方向上的投影值。
1.2 矩陣相乘
意義:右邊矩陣的每一列向量變換到左邊矩陣以行爲基所表示的空間中。
1.3 方差(variance)
1.4 協方差 (covariance)
1.5 協方差矩陣
方差與協方差統一到同一矩陣。
1.6 協方差矩陣對角化
1.7 利用p矩陣對高維數據降維
2 實現過程
設有m條n維數據,現在要利用PCA降到k維:
- 將原始數據按照n行m列組成矩陣X
- 按行(一維特徵)對X進行零均值化(減去每一行的均值)
- 求矩陣X的協方差矩陣C
- 求協方差矩陣C的特徵值和對應的特徵向量
- 將特徵向量按照特徵值從大到小的順序按行排列。取前k行組成矩陣p
- Y = pX 即爲降到k維後的數據
2. PCA與ICA的區別
2.1 原理介紹
(1)PCA假設原信號間彼此非相關,ICA假設原信號間彼此獨立
(2)PCA認爲主元之間彼此正交,樣本呈高斯分佈;ICA則不要求樣本呈高斯分佈。
在利用最大化信息熵的方法進行獨立成分分析的時候,需要爲源信號假定一個概率密度分佈函數g’,進而找出使得g(Y)=g(Wx)的信息熵最大的變換W,即有Y=s
2.2 實例分析
一般雞尾酒會(即盲源分離)問題的處理procedure
2.2.1 信號源
對於一組分別爲正弦、餘弦、隨機信號的三個模擬信號,如圖2.1所示。
Figure 2.1 信號源
2.2.2 信號源隨機混合
信號源隨機混合,使用6個麥克風對信號進行採集。採集效果如圖2.3所示。
Figure 2.2 信號源混合後效果圖
2.2.3 白化
分解信號之前,首先需要對信號進行預處理,方法包括PCA和白化。預處理的目的是對原始信號降維,降低ICA的計算量。6路信號經過預處理後降爲3路信號,如圖2.3所示。ICA僅僅需要這3路信號就可以還原信號源。
Figure 2.3 信號源混合後效果圖
2.2.4 ICA迭代求解
ICA經過多步迭代尋優,就會按照信號之間獨立最大的假設,將信號解混輸出。結果如圖2.4所示。
總的來說,ICA認爲觀測信號是若干個統計獨立的分量的線性組合,ICA要做的是一個解混過程。而PCA是一個信息提取的過程,將原始數據降維,現已成爲ICA將數據標準化的預處理步驟。
PCA(主成分分析)
拉格朗日
ICA(獨立成分分析)
最優化過程:利用極大似然法