PCA&ICA

PCA (能量最大)

高維數據降維
優化目標:選擇k個單位正交基,使得原始數據變換到這些基上後,各特徵亮亮協方差爲0,每一特徵方差儘可能大


1 原理

1.1 數據的表示方式—–向量

以二維空間爲例,空間中的一個點可以表示爲一個二維向量,向量中的每個值分別是向量在以座標軸爲基方向上的投影。上升到多維空間,分別是向量在每個基方向上的投影值。

1.2 矩陣相乘

意義:右邊矩陣的每一列向量變換到左邊矩陣以行爲基所表示的空間中。

1.3 方差(variance)

1.4 協方差 (covariance)

1.5 協方差矩陣

方差與協方差統一到同一矩陣。

1.6 協方差矩陣對角化

1.7 利用p矩陣對高維數據降維


2 實現過程

設有m條n維數據,現在要利用PCA降到k維:

  • 將原始數據按照n行m列組成矩陣X
  • 按行(一維特徵)對X進行零均值化(減去每一行的均值)
  • 求矩陣X的協方差矩陣C
  • 求協方差矩陣C的特徵值和對應的特徵向量
  • 將特徵向量按照特徵值從大到小的順序按行排列。取前k行組成矩陣p
  • Y = pX 即爲降到k維後的數據

2. PCA與ICA的區別

2.1 原理介紹

(1)PCA假設原信號間彼此非相關,ICA假設原信號間彼此獨立
(2)PCA認爲主元之間彼此正交,樣本呈高斯分佈;ICA則不要求樣本呈高斯分佈。

在利用最大化信息熵的方法進行獨立成分分析的時候,需要爲源信號假定一個概率密度分佈函數g’,進而找出使得g(Y)=g(Wx)的信息熵最大的變換W,即有Y=s

2.2 實例分析

一般雞尾酒會(即盲源分離)問題的處理procedure

2.2.1 信號源

對於一組分別爲正弦、餘弦、隨機信號的三個模擬信號,如圖2.1所示。
這裏寫圖片描述
Figure 2.1 信號源

2.2.2 信號源隨機混合

信號源隨機混合,使用6個麥克風對信號進行採集。採集效果如圖2.3所示。
這裏寫圖片描述

Figure 2.2 信號源混合後效果圖

2.2.3 白化

分解信號之前,首先需要對信號進行預處理,方法包括PCA和白化。預處理的目的是對原始信號降維,降低ICA的計算量。6路信號經過預處理後降爲3路信號,如圖2.3所示。ICA僅僅需要這3路信號就可以還原信號源。
這裏寫圖片描述
Figure 2.3 信號源混合後效果圖

2.2.4 ICA迭代求解

ICA經過多步迭代尋優,就會按照信號之間獨立最大的假設,將信號解混輸出。結果如圖2.4所示。
Figure2.4 恢復信號源

總的來說,ICA認爲觀測信號是若干個統計獨立的分量的線性組合,ICA要做的是一個解混過程。而PCA是一個信息提取的過程,將原始數據降維,現已成爲ICA將數據標準化的預處理步驟。

PCA(主成分分析)

拉格朗日

ICA(獨立成分分析)

最優化過程:利用極大似然法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章