PCA&ICA

原創

2018-09-04 00:23

PCA (能量最大)

高維數據降維
優化目標：選擇k個單位正交基，使得原始數據變換到這些基上後，各特徵亮亮協方差爲0，每一特徵方差儘可能大

1 原理

1.1 數據的表示方式—–向量

以二維空間爲例，空間中的一個點可以表示爲一個二維向量，向量中的每個值分別是向量在以座標軸爲基方向上的投影。上升到多維空間，分別是向量在每個基方向上的投影值。

1.2 矩陣相乘

意義：右邊矩陣的每一列向量變換到左邊矩陣以行爲基所表示的空間中。

1.3 方差(variance)

1.4 協方差 (covariance)

1.5 協方差矩陣

方差與協方差統一到同一矩陣。

1.6 協方差矩陣對角化

1.7 利用p矩陣對高維數據降維

2 實現過程

設有m條n維數據，現在要利用PCA降到k維：

將原始數據按照n行m列組成矩陣X
按行(一維特徵)對X進行零均值化(減去每一行的均值)
求矩陣X的協方差矩陣C
求協方差矩陣C的特徵值和對應的特徵向量
將特徵向量按照特徵值從大到小的順序按行排列。取前k行組成矩陣p
Y = pX 即爲降到k維後的數據

2. PCA與ICA的區別

2.1 原理介紹

（1）PCA假設原信號間彼此非相關，ICA假設原信號間彼此獨立
（2）PCA認爲主元之間彼此正交，樣本呈高斯分佈；ICA則不要求樣本呈高斯分佈。

在利用最大化信息熵的方法進行獨立成分分析的時候，需要爲源信號假定一個概率密度分佈函數g’，進而找出使得g(Y)=g(Wx)的信息熵最大的變換W，即有Y=s

2.2 實例分析

一般雞尾酒會（即盲源分離）問題的處理procedure

2.2.1 信號源

對於一組分別爲正弦、餘弦、隨機信號的三個模擬信號，如圖2.1所示。

Figure 2.1 信號源

2.2.2 信號源隨機混合

信號源隨機混合，使用6個麥克風對信號進行採集。採集效果如圖2.3所示。

Figure 2.2 信號源混合後效果圖

2.2.3 白化

分解信號之前，首先需要對信號進行預處理，方法包括PCA和白化。預處理的目的是對原始信號降維，降低ICA的計算量。6路信號經過預處理後降爲3路信號，如圖2.3所示。ICA僅僅需要這3路信號就可以還原信號源。

Figure 2.3 信號源混合後效果圖

2.2.4 ICA迭代求解

ICA經過多步迭代尋優，就會按照信號之間獨立最大的假設，將信號解混輸出。結果如圖2.4所示。

總的來說，ICA認爲觀測信號是若干個統計獨立的分量的線性組合，ICA要做的是一個解混過程。而PCA是一個信息提取的過程，將原始數據降維，現已成爲ICA將數據標準化的預處理步驟。

PCA(主成分分析)

拉格朗日

ICA（獨立成分分析）

最優化過程：利用極大似然法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.