【張量分解(三)】Tucker分解

原創

BQW_

2020-04-29 06:59

本文是對論文Tensor Decompositions and Applications進行了翻譯、整理、篩選和適當的補充，如何希望深入理解可以閱讀原文。

【張量分解(一)】符號與基礎知識
 【張量分解(二)】CP分解
 【張量分解(三)】Tucker分解

一、Tucker分解

1.1 定義

Tucker分解可以看作是主成分分析(PCA)的一種高階版本，其將張量分解爲一個核張量與每一維度上對應矩陣的乘積。具體來說，以三階張量 $\mathcal{X}\in\mathbb{R}^{I\times J\times K}$ 爲例，其Tucker分解寫爲
$\mathcal{X}\approx\mathcal{G}\times_1\textbf{A}\times_2\textbf{B}\times_3\textbf{C}=\sum_{p=1}^P\sum_{q=1}^Q\sum_{r=1}^R=g_{pqr}\textbf{a}_p\circ\textbf{b}_q\circ\textbf{c}_r=\lgroup\mathcal{G};\textbf{A,B,C}\rgroup$
其中， $\textbf{A}\in\mathbb{R}^{I\times P},\textbf{B}\in\mathbb{R}^{J\times Q},\textbf{C}\in\mathbb{R}^{K\times R}$ 是不同維度上的因子矩陣，這些矩陣通常被認爲是不同維度上的主成分。 $\mathcal{G}\in\mathbb{R}^{P\times Q\times R}$ 稱爲核張量，其中的每個元素代表了不同成分之間的交互程度。

從元素的角度看，Tucker分解可以寫爲
$x_{ijk}\approx\sum_{p=1}^P\sum_{q=1}^Q\sum_{r=1}^R g_{pqr}a_{ip}b_{jq}c_{kr},i=1,...,I,j=1,...,J,k=1,...,K$
$P,Q和R$ 是因子矩陣 $\textbf{A,B,C}$ 的成分數(例如因子矩陣的列數)。如果 $P,Q和R$ 小於 $I,J,K$ ，那麼張量 $\mathcal{G}$ 可以被認爲是張量 $\mathcal{X}$ 的壓縮版本。在某些情況下，壓縮版本的張量可以節省大量的存儲空間。Tucker分解形象展示如下圖：

1.2 張量矩陣化後的Tucker分解

Tucker分解的矩陣化版本爲
$\textbf{X}_{(1)}\approx\textbf{AG}_{(1)}(\textbf{C}\otimes\textbf{B})^T$
$\textbf{X}_{(2)}\approx\textbf{BG}_{(2)}(\textbf{C}\otimes\textbf{A})^T$
$\textbf{X}_{(3)}\approx\textbf{CG}_{(3)}(\textbf{B}\otimes\textbf{A})^T$

1.3 Tucker分解的N維推廣

上面僅介紹了三維張量的Tucker分解，其在N維張量上的分解爲
$\mathcal{X}=\mathcal{G}\times_1 \textbf{A}^{(1)}\times_2 \textbf{A}^{(2)}\dots\times_N \textbf{A}^{(N)}=\lgroup\mathcal{G};\textbf{A}^{(1)},\textbf{A}^{(2)},\dots,\textbf{A}^{(N)}\rgroup$
元素角度的N維張量Tucker分解爲：
$x_{i_1 i_2\dots i_N}=\sum_{r_1=1}^{R_1}\sum_{r_2=1}^{R_2}\dots\sum_{r_N=1}^{R_N}g_{r_1 r_2\dots r_N}a_{i_1 r_1}^{(1)}a_{i_2 r_2}^{(2)}\dots a_{i_N r_N}^{(N)}$
矩陣化版本爲
$\textbf{X}_{(n)}=\textbf{A}^{(n)}\textbf{G}_{(n)}(\textbf{A}^{(N)}\otimes\dots\otimes\textbf{A}^{(n+1)}\otimes\textbf{A}^{(n-1)}\otimes\dots\otimes\textbf{A}^{(1)})^T$

二、n秩(n-rank)與截斷Tucker分解

2.1 n秩(n-rank)

若 $\mathcal{X}$ 是一個大小爲 $I_1\times I_2\times \dots \times I_N$ 的N階張量，那麼其n秩的含義是： $\mathcal{X}$ 在模n矩陣化後的矩陣 $\textbf{X}_{(n)}$ 的列秩，其表示爲 $rank_n(\mathcal{X})$ 。如果在Tucker分解中，令 $R_n=rank_n(\mathcal{X}),n=1,...,N$
那麼就稱張量 $\mathcal{X}$ 是一個 $rank-(R_1,R_2,\dots,R_N)$ 的張量。(注：不要混淆張量n秩和張量秩的概念)

2.2 截斷Tucker分解

$\mathcal{X}$ 是一個n秩爲 $rank-(R_1,R_2,\dots,R_N)$ 的數據張量。如果令 $R_n=rank_n(\mathcal{X})$ ，則可以很容易找到 $\mathcal{X}$ 的精確Tucker分解。但是，如果存在至少一個維度滿足 $R_n<rank_n(\mathcal{X})$ ，那麼Tucker分解必然不準確且計算困難，在這種情況下的Tucker分解稱爲截斷Tucker分解，如原理如下圖所示。

截斷Tucker分解無法準確的再生張量 $\mathcal{X}$

三、計算Tucker分解

3.1 高階SVD(HOSVD)

高階SVD(HOSVD)的思想是找到那些能很好的捕獲維度n上變化的矩陣，而且其不受到其他維度的影響。HOSVD是矩陣的SVD(奇異值分解)在高維張量上的推廣。其算法如下所示：

當至少存在一個 $R_n<rank_n(\mathcal{X})$ ，則稱爲截斷HOSVD。

3.2 HOOI

截斷HOSVD並不能直接得到最優值，但是其結果可以作爲迭代交替最小二乘法(ALS)的一個很好的迭代起點。HOOI就是一種ALS算法，其算法如下圖所示：

HOOI原理：

若 $\mathcal{X}$ 是一個大小爲 $I_1\times I_2\times \dots \times I_N$ 的N階張量，那麼計算Tucker分解要解決的優化問題爲
$min \|\mathcal{X}-\lgroup\mathcal{G};\textbf{A}^{(1)},\textbf{A}^{(2)},\dots,\textbf{A}^{(N)}\rgroup\|\tag{1}$
其中， $\mathcal{G}\in\mathbb{R}^{R_1\times R_2\times \dots \times R_N}$ ，矩陣 $\textbf{A}^{(n)}\in\mathbb{R}^{I_n\times R_n}$ 且列正交。
如果在最優解處，那麼核張量 $\mathcal{G}$ 必然滿足
$\mathcal{G}=\mathcal{X}\times_1\textbf{A}^{(1)T}\times_2\textbf{A}^{(2)T}\dots\times_N\textbf{A}^{(N)T}$
將上式代入到公式(1)中，那麼優化目標可以重寫爲
$max\|\mathcal{X}\times_1\textbf{A}^{(1)T}\times_2\textbf{A}^{(2)T}\dots\times_N\textbf{A}^{(N)T}\|\tag{2}$
其中，矩陣 $\textbf{A}^{(n)}\in\mathbb{R}^{I_n\times R_n}$ 且列正交。將公式(2)重寫爲矩陣形式
$\|\textbf{A}^{(n)T}\textbf{W}\|且\textbf{W}=\textbf{X}_{(n)}(\textbf{A}^{(N)}\otimes\dots\otimes\textbf{A}^{(n+1)}\otimes\textbf{A}^{(n-1)}\otimes\dots\otimes\textbf{A}^{(1)})$
使用SVD可以求解上面的優化問題，僅需要令 $\textbf{A}^{(n)}$ 爲矩陣 $\textbf{W}$ 的左奇異向量。但是，這個方法不能保證收斂到全局最優值。

四、缺失唯一性

Tucker分解是不唯一的。對於三維張量的分解，如果令 $\textbf{U}\in\mathbb{R}^{P\times P},\textbf{V}\in\mathbb{R}^{Q\times Q},\textbf{W}\in\mathbb{R}^{R\times R}$ 爲非奇異矩陣。那麼對Tucker分解可以做下面的變換
$\lgroup\mathcal{G};\textbf{A,B,C}\rgroup=\lgroup\mathcal{G}\times_1\textbf{U}\times_2\textbf{V}\times_3\textbf{W};\textbf{AU}^{-1},\textbf{BV}^{-1},\textbf{CW}^{-1}\rgroup$
換句話說，我們可以在不影響擬合結果的情況下修改核張量 $\mathcal{G}$ ，只要同時對因子矩陣進行反向修改即可。

這種特性提供了一個渠道，讓我們可以簡化核張量 $\mathcal{G}$ ，從而是 $\mathcal{G}$ 中的大多數元素爲0，這樣就可以消除各個維度上成分的相互作用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【張量分解(三)】Tucker分解

相關文章：

一、Tucker分解

1.1 定義

1.2 張量矩陣化後的Tucker分解

1.3 Tucker分解的N維推廣

二、n秩(n-rank)與截斷Tucker分解

2.1 n秩(n-rank)

2.2 截斷Tucker分解

三、計算Tucker分解

3.1 高階SVD(HOSVD)

3.2 HOOI

四、缺失唯一性

【Python併發】【Python多進程(一)】創建進程

【Tensorflow】多分類問題的Precision、Recall和F1計算及Tensorflow實現

【Python併發】【Python多進程(二)】進程間通信

【自然語言處理】【手把手實現BILSTM-CRF命名實體識別模型並部署(一)】預訓練詞向量的裁剪與保存

【深度學習】愛因斯坦求和約定(einsum)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結