主成分分析與K-L變換

1. 主成分分析 —— 基於最大方差的描述

2. K-L變換 —— 基於最小誤差的描述

$\qquad$ 主成分分析 $(Principal\ Component\ Analysis,\ PCA)$ 基於輸入數據的協方差矩陣，可實現“去除數據集的相關性” —— 在數據處理中常用於通過“高維數據的降維”來實現特徵提取，在信號處理中被稱爲 $K$ - $L$ 變換，常用於實現“數據壓縮”。

這裏的“相關性”是指數據集各維度之間的“線性”依賴關係，採用“協方差”來描述
以二維數據 $\boldsymbol x=(x_1,x_2)^T$ 爲例，“觀測數據集不相關”是指協方差 $cov(x_1,x_2)=0$ ，即： $x_1$ 和 $x_2$ 兩個分量不是線性相關的。此時，協方差矩陣爲對角陣
詳細內容可參考《協方差矩陣與二維高斯分佈》

$\qquad$

1. 主成分分析 —— 基於最大方差的描述

$\qquad$ 考慮觀測數據集 $\{\boldsymbol x_i\}_{i=1}^K\in R^N$ ，將每個觀測數據投影到某個單位方向 $\boldsymbol u\in R^N,\boldsymbol u^T\boldsymbol u=1$ 。從數據處理的角度來看，如果觀測數據集在單位方向 $\boldsymbol u$ 上的投影值具有最大方差，那麼方向 $\boldsymbol u$ 就爲主成分 $(Principal\ Component)$ 。

1.1 投影數據的方差

$\qquad$ 如圖 $1$ 所示，（二維）數據集 $\{\boldsymbol x_i\}_{i=1}^K$ （紅色點）在投影之後，變成了單位方向 $\boldsymbol u$ 上的向量集 $\{\tilde\boldsymbol x_i\}_{i=1}^K$ （綠色點）。

$\qquad$

圖1 取自於《PRML》Fig 12.2
　　　觀測數據點 $\boldsymbol x_i$ 經過投影之後爲 $\tilde\boldsymbol x_i=(\boldsymbol u^T\boldsymbol x_i)\boldsymbol u$ ，即方向爲 $\boldsymbol u$ ，長度爲 $\boldsymbol u^T\boldsymbol x_i$

$\qquad$ 投影后數據 $\{\tilde\boldsymbol x_i\}_{i=1}^K$ （在 $\boldsymbol u$ 方向上）的方差可定義爲：

$\qquad\qquad\qquad\dfrac{1}{K}\displaystyle\sum_{i=1}^K\{\boldsymbol u^T\boldsymbol x_i-\boldsymbol u^T\bar\boldsymbol x\}^2=\boldsymbol u^TS\boldsymbol u$

$\qquad\qquad$ 其中， $\bar\boldsymbol x=\dfrac{1}{K}\displaystyle\sum_{i=1}^K\boldsymbol x_i$ 　爲觀測數據集的樣本均值

$\qquad\qquad$ 　　　 $S=\dfrac{1}{K}\displaystyle\sum_{i=1}^K(\boldsymbol x_i-\bar\boldsymbol x)(\boldsymbol x_i-\bar\boldsymbol x)^T$ 　爲觀測數據集的協方差矩陣

對於觀測數據集 $\{\boldsymbol x_1,\boldsymbol x_2,\cdots,\boldsymbol x_K\},\ \forall \boldsymbol x_i\in R^N$ ，記 $\bar\boldsymbol x$ 爲數據集的樣本均值
若將“去掉均值的數據集”寫成矩陣形式，記爲 $\bold X = [\boldsymbol x_1-\bar\boldsymbol x,\boldsymbol x_2-\bar\boldsymbol x,\cdots,\boldsymbol x_K-\bar\boldsymbol x]_{N\times K}$
那麼，數據集的協方差矩陣爲： $S=\dfrac{1}{K}\bold X^T\bold X$
可參考《PCA圖像壓縮的matlab實現》

$\qquad$
$\qquad$ 爲了求使得方差 $\boldsymbol u^TS\boldsymbol u$ 最大的 $\boldsymbol u$ 方向，採用以下步驟：

$\qquad(1)$ 採用拉格朗日乘子法構造最優化問題：

$\qquad\qquad\qquad\qquad\max\ \{\ \boldsymbol u^TS\boldsymbol u+\lambda(1-\boldsymbol u^T\boldsymbol u)\ \}$

$\qquad(2)$ 令其對 $\boldsymbol u$ 的偏導爲 $0$ ，可得到：

$\qquad\qquad\qquad\qquad S\boldsymbol u=\lambda\boldsymbol u$

$\qquad$ 　　顯然， $\boldsymbol u$ 是協方差矩陣 $S$ 的特徵向量
$\qquad$ 　　　　　 $\lambda$ 是 $\boldsymbol u$ 所對應的特徵值

$\qquad(3)$ 將等式兩端左乘 $\boldsymbol u^T$ ，可得到：

$\qquad\qquad\qquad\qquad\boldsymbol u^TS\boldsymbol u=\boldsymbol u^T\lambda\boldsymbol u=\lambda\boldsymbol u^T\boldsymbol u=\lambda$

$\qquad$ 　　這就說明，觀測數據集在 $S$ 的特徵向量 $\boldsymbol u$ 方向上投影后，“投影數據的方差值”正好等於對應的特徵值 $\lambda$ 。

$\qquad$ 如圖 $2$ 所示，若將協方差矩陣 $S$ 的特徵值按從大到小的順序排列，最大特徵值 $\lambda_1$ 所對應特徵向量 $\boldsymbol u_1$ 的方向，即爲第一主成分，該觀測數據集“最主要的特徵”體現在 $\boldsymbol u_1$ 方向上，投影后的數據在該方向上分佈的散佈程度最大； $\lambda_2$ 所對應特徵向量 $\boldsymbol u_2$ 的方向，爲第二主成分，“次主要的特徵”體現在 $\boldsymbol u_2$ 方向上； $\cdots\cdots$ 。
$\qquad$

圖2 從一個均值爲 $\boldsymbol 0$ ，協方差矩陣爲 $\left[\begin{matrix}2&-2\\-2&4\end{matrix}\right]$ 的正態分佈採樣了 $100$ 個數據（藍色的 ‘+’ 號）組成觀測數據集 $\{\boldsymbol x_i\}_{i=1}^{100}\in R^2$
　　
通過對協方差矩陣進行特徵分解，可求出：
$(1)$ 第一主成分爲 $\boldsymbol u_1=\left[\begin{matrix}0.5257\\-0.8507\end{matrix}\right]$ （黑色箭頭），觀測數據集在該方向上的投影具有更大的方差
　　對應了協方差矩陣的最大特徵值 $\lambda_1=5.2360$
$(2)$ 第二主成分爲 $\boldsymbol u_2=\left[\begin{matrix}-0.8507\\-0.5257\end{matrix}\right]$ （紅色箭頭），觀測數據集在該方向上的投影具有更小的方差
　　對應了協方差矩陣較小的特徵值 $\lambda_2=0.7639$
　
由 $100$ 個觀測點計算得到的“觀測數據集的協方差矩陣” $S=\left[\begin{matrix}1.7809&-1.7640\\-1.7640&3.6450\end{matrix}\right]$ ，特徵分解之後的兩個主成分分別爲：
$(1)$ 第一主成分爲 $\boldsymbol u_1^{'}=\left[\begin{matrix}0.5162\\-0.8565\end{matrix}\right]$ ，較大的特徵值 $\lambda_1^{'}=4.7081$ （右圖爲投影數據）
　　可以看出，觀測數據的主要變化特徵（ $y$ 隨 $x$ 的線性變化）是沿着 $\boldsymbol u_1^{'}$ 方向（可參考《協方差矩陣與二維高斯分佈》）
$(2)$ 第二主成分爲 $\boldsymbol u_2^{'}=\left[\begin{matrix}-0.8565\\-0.5162\end{matrix}\right]$ ，較小的特徵值 $\lambda_2^{'}=0.7178$
　
可以看出，即使只採樣了 $100$ 個數據，兩組主成分的方向也是非常接近的

$\qquad$

1.2 高維數據的降維

$\qquad$ 考慮 $N$ 維觀測數據集 $\{\boldsymbol x_i\}_{i=1}^K$ ，當 $N$ 值比較大時，會極大增加運算量。例如，一幅 $100\times 100$ 大小的圖像實際上是 $R^{10000}$ 空間中的一個元素（ $N=10000$ ）。

$\qquad$ 然而，數據通常都是包含一些冗餘的，“高維數據中的有效成分”實際上只包含在一個比較小的 $M$ 維子空間（ $R^M\sub R^N,\ M<N$ ）中。

$\qquad$ 採用 $PCA$ 提取出最重要的 $M$ 個成分（最大的 $M$ 個特徵值所對應的成分）組成 $\tilde\boldsymbol x_i\in R^M$ 來表示完整的 $N$ 維數據 $\boldsymbol x_i\in R^N$ ，從而實現了高維數據的降維。

$\qquad$

2. K-L變換 —— 基於最小誤差的描述

$\qquad$ 主成分分析，在信號處理領域也被稱爲 $K$ - $L$ 變換。也就是說，一個信號可以在 $K$ - $L$ 基上展開。

2.1 內積空間中的正交變換

$\qquad$ 由線性代數理論可知，實對稱矩陣 $S_{N\times N}$ 可以通過一個正交矩陣 $A$ 實現對角化（實對稱矩陣的特徵分解，可參考本文）：

$\qquad\qquad ASA^{-1}=ASA^T=\left[\begin{matrix}\lambda_0&&&\\&\lambda_1&&\\&&\ddots&\\&&&\lambda_{N-1}\end{matrix}\right]$

$\qquad\qquad Sp_i=\lambda_ip_i\ \ (i=0,1,\cdots,N-1)$ 　　【 $p_i$ 爲特徵值 $\lambda_i$ 所對應的特徵向量】

$\qquad\qquad$ 其中，正交矩陣 $A=[p_0,p_1,\cdots,p_{N-1}]$ 滿足 $A^{-1}=A^T$

$\qquad$ 正交矩陣 $A$ 的主要特點在於： $A$ 中各列是兩兩正交的。

$\qquad\qquad A^{-1}=A^T\Longrightarrow A^TA=\bold I \ \Longrightarrow\left\{ \begin{aligned} \ p_i^Tp_j&=0&,i\neq j \\\\ p_i^Tp_j&=1&,i=j \end{aligned} \right.$

$\qquad$ 若將正交矩陣 $A$ 看成兩個內積空間 $X,Y$ 之間的線性變換，那麼

$\qquad\qquad\qquad A:X\longrightarrow Y$
$\qquad\qquad\qquad\qquad \boldsymbol x\longrightarrow \boldsymbol y=A\boldsymbol x$ 　　（正變換）

$\qquad$ 正交變換可以保證信號在變換前後的能量保持不變，即： $\Vert \boldsymbol x\Vert_X=\Vert \boldsymbol y\Vert_Y=\Vert A\boldsymbol x\Vert_Y$
$\qquad$

2.2 信號的正交分解

$\qquad$ 由於正交矩陣 $A$ 中的各列兩兩正交， $A$ 中的列構成了空間的一組“正交規範基”，若認爲 $\boldsymbol y=A\boldsymbol x$ 爲正變換，反變換也必然存在，即：

$\qquad\qquad\qquad\boldsymbol x=A^{-1}\boldsymbol y=A^T\boldsymbol y$ 　　（逆變換）

$\qquad$ 上述逆變換意味着，一個信號 $\boldsymbol x=[x_0,x_1,\cdots,x_{N-1}]^T$ 可以在一組正交基 $\{\varphi(\cdot,n)\}$ 上展開，展開係數爲 $\boldsymbol y=[y_0,y_1,\cdots,y_{N-1}]^T$ ，也就是：

$\qquad\qquad\qquad x_i=\displaystyle\sum_{n=0}^{N-1}y_n\varphi(i,n)$ ，　　其中 $\varphi(i,n)$ 爲變換核

逆變換矩陣 $A^T=\left[\begin{matrix}\varphi(0,0)&\cdots&\varphi(0,n)&\cdots&\varphi(0,N-1)\\ \vdots&&\vdots&&\vdots \\ \varphi(i,0)&\cdots&\varphi(i,n)&\cdots&\varphi(i,N-1)\\ \vdots&&\vdots&&\vdots \\ \varphi(N-1,0)&\cdots&\varphi(N-1,n)&\cdots&\varphi(N-1,N-1)\end{matrix}\right]$

$\qquad$ 例如，一維離散傅里葉變換的逆變換核爲 $\varphi(i,n)=e^{j\frac{2\pi in}{N}}$ ，那麼

$\qquad\qquad\boldsymbol y= A\boldsymbol x\ \ \longrightarrow y_n=\displaystyle\sum_{i=0}^{N-1}x_ie^{-j\frac{2\pi in}{N}},\qquad\ \ \ n=0,1,\cdots,N-1$
$\qquad\qquad\boldsymbol x= A^T\boldsymbol y\longrightarrow x_i=\dfrac{1}{N}\displaystyle\sum_{n=0}^{N-1}y_ne^{j\frac{2\pi in}{N}},\qquad i=0,1,\cdots,N-1$

可以驗證一維離散傅里葉逆變換 $A^T=[e^{j\frac{2\pi in}{N}}]$ 爲正交矩陣

$\qquad$

2.3 K-L變換

$\qquad$ 對於一個寬平穩的隨機向量 $\boldsymbol x=[x_0,x_1,\cdots,x_{N-1}]^T$ ，其協方差矩陣爲 $S_{\boldsymbol x}=E[(\boldsymbol x-\boldsymbol\mu_{\boldsymbol x})(\boldsymbol x-\boldsymbol\mu_{\boldsymbol x})^T]$ ，其中 $\boldsymbol\mu_{\boldsymbol x}=E[\boldsymbol x]$ 。

$\qquad K$ - $L$ 變換記爲 $\boldsymbol y= A\boldsymbol x$ —— 尋找正交矩陣 $A$ 將輸入信號 $\boldsymbol x$ 變換爲輸出信號 $\boldsymbol y$ （變換域），同時使得隨機變量 $\boldsymbol y$ 的協方差矩陣 $S_{\boldsymbol y}$ 爲對角陣，即：

$\qquad\qquad S_{\boldsymbol y}=AS_{\boldsymbol x}A^T=\left[\begin{matrix}\lambda_0&&&\\&\lambda_1&&\\&&\ddots&\\&&&\lambda_{N-1}\end{matrix}\right]$

$\qquad$ 由於隨機變量 $\boldsymbol y$ 的協方差矩陣 $S_{\boldsymbol y}$ 爲對角陣，各分量之間的協方差均爲零，原始信號 $\boldsymbol x$ 經過 $\boldsymbol y= A\boldsymbol x$ 變換後，完全去除了相關性。
$\qquad$

以圖像塊爲例：
(1) 圖像像素在空間域中相關性很強（局部區域像素通常比較接近），能量分佈比較均勻
(2) 圖像塊經過正交變換（座標旋轉或變換）後，能量集中在少數座標軸上，變換系數 $\{y_n\}$ 之間的相關性近似統計獨立
(3) 圖像塊的能量在變換域中的分佈相對集中（集中在直流和少數低頻係數），可採用較少的編碼比特表示，達到壓縮編碼的目的

$\qquad$ 在 $K$ - $L$ 基 $\{\phi_0,\phi_1,\cdots,\phi_{N-1}\}$ 上可以將輸入信號 $\boldsymbol x$ 在變換域展開：

$\qquad\qquad\boldsymbol x=A^T\boldsymbol y=[\phi_0,\phi_1,\cdots,\phi_{N-1}]\boldsymbol y=\displaystyle\sum_{n=0}^{N-1}y_n\phi_n$

$\qquad\qquad$ 其中， $y_n=\langle\boldsymbol x, \phi_n\rangle=\boldsymbol x^T\phi_n$ 是 $\boldsymbol x$ 在 $\phi_n$ 上的投影

$\qquad$ 因此
$\qquad\qquad\boldsymbol x=A^T\boldsymbol y=\displaystyle\sum_{n=0}^{N-1}\langle\boldsymbol x, \phi_n\rangle\phi_n$

由 $A^T=A^{-1}\Longrightarrow A^TA=\bold I$ ，說明 $A$ 中各列 $\{p_i\}$ 兩兩正交
又由於 $A^T=A^{-1}\Longrightarrow AA^T=\bold I\Longrightarrow(A^T)^T(A^T)=\bold I$ ，說明 $A^T$ 中各列 $\{\phi_n\}$ 也兩兩正交

$\qquad$

2.4 基於K-L變換的數據壓縮

$\qquad$ 要對信號 $\boldsymbol x$ 做數據壓縮，只要捨去變換系數 $\boldsymbol y$ 的一些係數。假設只保留 $M<N$ 個係數，也就是：

$\qquad\qquad\hat\boldsymbol x=\displaystyle\sum_{n=0}^{M-1}y_n\phi_n=\displaystyle\sum_{n=0}^{N-1}\langle\boldsymbol x, \phi_n\rangle\phi_n$

$\qquad$ 壓縮後數據 $\hat\boldsymbol x$ 對原始數據 $\boldsymbol x$ 的均方誤差爲： $\varepsilon=E[(\hat\boldsymbol x-\boldsymbol x)^2]$

$\qquad$ 因此， $K$ - $L$ 變換也可以理解爲：在保留 $M$ 個係數的前提下，爲了獲得最大壓縮率，選擇一組標準正交基 $\{\phi_0,\phi_1,\cdots,\phi_{N-1}\}$ ，使得上述均方誤差最小。

$\qquad\qquad\begin{aligned}\varepsilon&=E[(\hat\boldsymbol x-\boldsymbol x)^2]=E\left\{\left[\displaystyle\sum_{n=M}^{N-1}y_n\phi_n \right]^2 \right\} \\ &=E\left\{ \langle \displaystyle\sum_{n=M}^{N-1}y_n\phi_n,\displaystyle\sum_{n=M}^{N-1}y_n\phi_n \rangle \right\},\quad \langle\phi_i,\phi_j\rangle=0(i\neq j) \\ &=E\left\{\displaystyle\sum_{n=M}^{N-1}y_n^2 \right\},\qquad\qquad\qquad\quad \langle\phi_n,\phi_n\rangle=1\\ &=E\left\{\displaystyle\sum_{n=M}^{N-1}[\boldsymbol x^T\phi_n]^2 \right\},\qquad\qquad\quad [\boldsymbol x^T\phi_n]^2=(\boldsymbol x^T\phi_n)^T(\boldsymbol x^T\phi_n) \\ &=E\left\{\displaystyle\sum_{n=M}^{N-1}[\phi_n^T\boldsymbol x\boldsymbol x^T\phi_n] \right\} \\ &=\displaystyle\sum_{n=M}^{N-1}\phi_n^TE\left\{\boldsymbol x\boldsymbol x^T\right\}\phi_n \end{aligned}$

$\qquad$ 假設 $\boldsymbol x$ 已去除均值，那麼 $E\left\{\boldsymbol x\boldsymbol x^T\right\}=S_{\boldsymbol x}$ ，那麼最小均方誤差： $\varepsilon=\displaystyle\sum_{n=M}^{N-1}\phi_n^TS_{\boldsymbol x}\phi_n$

$\qquad$ 同樣採用拉格朗日乘子法構造出最優化問題：

$\qquad\qquad\qquad\min\ \{\ \varepsilon+\lambda(1-\phi^T\phi)\ \}$

$\qquad$ 對 $\phi_n$ 求偏導：

$\qquad\qquad\qquad\dfrac{\partial}{\partial \phi_n}\{\ \varepsilon+\lambda(1-\phi^T\phi)\ \}=0$

$\qquad$ 可求得：

$\qquad\qquad\qquad S_{\boldsymbol x}\phi_n=\lambda_n\phi_n,\quad n=M,\cdots,N-1$

$\qquad$
$\qquad$ 因此，在變換域截短數據後的均方誤差爲：

$\qquad\qquad\qquad\varepsilon=\displaystyle\sum_{n=M}^{N-1}\phi_n^TS_{\boldsymbol x}\phi_n=\displaystyle\sum_{n=M}^{N-1}\phi_n^T\lambda_n\phi_n=\displaystyle\sum_{n=M}^{N-1}\lambda_n$

$\qquad$ 爲了使均方誤差最小，將協方差矩陣 $S_{\boldsymbol x}$ 的特徵值按照從大到小的順序排列，即 $\lambda_0\geq\lambda_1\geq\cdots\geq\lambda_{N-1}$ ，保留最大的 $M$ 個特徵值，相當於在變換域（保留 $M$ 個變換系數時）保留了信號的最大能量。

$\qquad$
$\qquad$ 由於 $K-L$ 變換能夠完全去除原始信號 $\boldsymbol x$ 的相關性，通過保留最大的 $M$ 個特徵值來進行數據壓縮時可以實現截短後數據 $\hat\boldsymbol x$ 的均方誤差最小， $K-L$ 變換也被稱爲“最佳變換”。然而，由於 $K-L$ 變換的基取決於協方差矩陣 $S_{\boldsymbol x}$ ，協方差矩陣的特徵值和特徵向量的計算沒有像 $FFT$ 之類的快速算法，限制了其應用場景。離散餘弦變換 $DCT$ 在滿足一階馬爾可夫過程假設的前提下，可以極好地近似 $K-L$ 變換，又有快速算法，因而在壓縮編碼中得到了廣泛應用。

$\qquad$
代碼實現：PCA圖像壓縮
實現原理：
（1）將 $M\times N$ 大小的圖像進行分塊，若每個圖像塊大小爲 $B_s\times B_s$ ，整幅圖像包含了 $N_s$ 個圖像塊，也就是滿足 $MN=N_sB_s^2$
（2）相當於構建了一個 $B_s^2\times 1$ 的隨機向量，整幅圖像包含了該隨機向量的 $N_s$ 次實現
（3）PCA 針對該隨機向量的 $N_s$ 次實現來展開，尋找該隨機向量的 $B_s^2$ 個分量中最重要的 $p$ 個主分量
　　【從K-L變換的角度來看】：一個 $B_s^2\times 1$ 輸入圖像數據，經過K-L變換後，在新的 $B_s^2$ 維空間中僅保留 $p$ 個維度（其實就是降維），若採用 PCA 選中的這 $p$ 個維度來表示圖像，可以使得“變換後圖像數據”的能量達到最大。
（4）從K-L變換域回到原始圖像的空間域，只需要在 $B_s^2$ 維變換域空間中保留 $p$ 個維度的分量值，將剩餘的 $B_s^2-p$ 個分量置 $0$ 。

上述過程僅僅考慮了圖像壓縮在變換域的表現，並未考慮其他的量化、編碼等過程。

主成分分析(PCA)與K-L變換

主成分分析與K-L變換

1. 主成分分析 —— 基於最大方差的描述

1.1 投影數據的方差

1.2 高維數據的降維

2. K-L變換 —— 基於最小誤差的描述

2.1 內積空間中的正交變換

2.2 信號的正交分解

2.3 K-L變換

2.4 基於K-L變換的數據壓縮

python gdal 安裝使用（Windows， python 3.6.8）

OpenCV典型程序結構

OpenCV2.4環境配置

離散Hopfield神經網絡摘記

Logistic迴歸摘記

主成分分析(PCA)與K-L變換

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結