VAE是一種隱變量模型

隱變量模型

廣義上的隱變量主要就是指“不能被直接觀察到，但是對系統的狀態和能觀察到的輸出存在影響的一種東西”。
隱變量(latent variable)代表了隱因子(latent factor)的組合關係。

已知： 數據集 $D_X$ ，其中每個點都屬於空間 $X_S$ 。隱變量 $Z∈Z_S$ 。
假設： 有兩個變量， $z∈Z_S$ 和 $x∈X_S$ 。存在一個確定性函數族 $f(z;θ)$ ，族中的每個函數由 $\theta\in\Theta$ 唯一確定， $f:Z_S×Θ→X_S$ 。當 $θ$ 固定、 $z$ 是一個概率密度函數爲 $P_z(z)$ 的隨機變量時， $f(z;θ)$ 就是定義在 $X_S$ 上的隨機變量 $x$ ，對應的概率密度函數可以寫成 $g(x)$ 。
目標： 優化 $θ$ ，從而尋找到一個 $f$ ，它是隨機變量 $x$ 的採樣、和 $X$ 非常的像。
注意：
(1) $x$ 是一個變量, $D_X$ 是已知的數據集， $x\notin D_X$ 。
(2) $f$ 把隱變量 $z$ 映射成 $x$ 變量，而 $x$ 變量就是與數據集 $D_X$ 具有直接關係的隨機變量，這個直接關係可以表示成 $P_x(D_X|x)$ 。則數據集爲 $D_X$ 存在的概率 $P_t(D_X)=∫P_x(D_X|x)g(x)dx$ 。

根據貝葉斯公式：
$(1)~P_t(D_X)=∫P_{xz}(D_X|z;θ)P_z(z)dz$
其中， $P_{xz}(D_X|z;θ)$ 是新定義的概率密度函數，替換 $P_t(D_X)$ 中的 $P_x(D_X|x)g(x)$ ，從而表示 $z$ 與 $D_X$ 的關係。
假定 $P_{xz}$ 是服從高斯分佈的概率密度函數，即 $P_{xz}(D_X|z;θ)=N(D_X|f(x;θ),σ^2I)$
注意， $z$ 的分佈是未知的。

由於隱變量 $Z$ 的分佈是未知的，因此VAE首先假設其服從高斯分佈，然後使用多層神經網絡來進行逼近 $Z$ （即 $f(z;θ)$ 是一個多層神經網絡）。因此，多層的神經網絡前些層是逼近 $Z$ ，後些層是 $Z→X$ 映射。

上述內容整理自ran337287的博客，可點擊進入文章

高斯混合模型（GMM）

GMM是傳統的隱變量模型，爲多個高斯分佈的混合，其密度函數爲多個高斯密度函數的加權組合，用EM算法求解。
隱變量Z表示樣本屬於哪個高斯分佈，Z爲離散的隨機變量 $Z\sim Categorical~distribution$

求解GMM的EM算法過程：
$logP(x)=ELBO+KL(q_\phi(Z|X)||P_\theta(Z|X))$
E-step：
當 $q=P_\theta(Z|X)時，KL=0$
則 $arg\underset{\theta}{max}P(x)=argmaxELBO$
∴Expectation是ELBO
M-step：
$\theta=arg\underset{\theta}{max}ELBO\\~~~~~~=arg\underset{\theta}{max}E_{P_\theta(Z|X)}[log_\theta P(X,Z)]$

這一步留坑，下次完善

VAE概述

VAE是無限個高斯分佈的混合。

示意圖

模型描述

假設Z是連續、高維的屬於高斯分佈的隨機變量，則：
$（2）\begin{cases}Z\sim N(0,I)~~ \\X|Z\sim N(\mu_\theta(Z), \Sigma_\theta(Z)) \end{cases}$

上式假設 $Z$ 服從標準的高斯分佈。類似先驗。但是我們更關注的是後驗 $P_\theta(Z|X)$ 以輔助建模。
上式假設 $X|Z$ 爲連續變量，將要用多層神經網絡去逼近得到。如果假設爲離散變量，則 $X|Z\sim Categorical~distribution$ 。

模型：
$（3）P_\theta(X)=\int_ZP_\theta(X,Z)dZ\\~~~~~~~~~~~~~~~~~~~~~~=\int_ZP_\theta(Z)P_\theta(X|Z)dZ$
∵ $Z$ 是高維的
∴無法通過積分得到結果
∴ $P(X)$ 是intractable
∴後驗概率 $P_\theta(Z|X)=\frac{P_\theta(Z)P_\theta(X|Z)}{P_\theta(X)}$ 是intractable
∴求 $\theta$ 要先解決後驗概率 $P_\theta(Z|X)$

模型求解

假設 $\begin{cases}P(Z)=N(0,I)\\P_\theta(X|Z)=N(\mu_\theta|Z,\Sigma_\theta(Z))\end{cases}\\∵P_\theta(Z|X)~is~intractable\\∴q_\Phi(Z|X)\xRightarrow{逼近}P_\theta(Z|X)$

$P_\theta(Z|X)$ is intractable，因此不能用EM算法求解。因爲EM算法的先決條件是 $q=P_\theta(Z|X)$

假設 $\theta$ 已經求出來了，即Model已經訓練好了。生成樣本過程：
$Z\sim P(Z)\rarr Z^{(i)}\rarr X^{(i)}\sim$ $P_\theta(X|Z^{(i)})$ $\xLeftarrow[NN]{逼近}$
目標：
$<\hat\theta,\hat\phi>=argminKL(q_\phi(Z|X)||P_\theta(Z|X))\\=argmaxELBO\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X,Z)]+H[q_\phi(Z|X)]\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X|Z)+logP(Z)]+H[q_\phi(Z|X)]\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X|Z)]-KL(q_\phi(Z|X)||P(Z))$

上式的最後一行，
（1） $argmax$ 項即爲損失函數。
（2）KL項即爲正則化項，意在使得 $q_\phi$ 更接近 $P(Z)$ ，使得 $q_\phi$ 更接近高斯分佈，防止其坍縮到一個點。

使用梯度下降法 $\hat\theta$ 和 $\hat\phi$ 。採用重參數化技巧+神經網絡（如SGVI, SGVB, SVI, Amortized Inference等）來解決該優化問題，即求近似後驗。

SGVI爲例：假設 $q(Z|X)$

注意： 初始是從 $P(Z)$ 中採樣 $Z^{(i)}$ ，訓練時是從 $q_\phi(Z|X)$ 中採樣 $Z^{(i)}$ 。

【原理】變分自編碼器

VAE是一種隱變量模型

隱變量模型

高斯混合模型（GMM）

VAE概述

示意圖

模型描述

模型求解

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

多標籤分類算法

DrugBank數據庫Downloads詳解（版本5.1.4，2019-7-2）

SuperTarget數據庫詳解

注意力機制分類、原理、應用

【NLP面試】簡述RNN、LSTM、NLP

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結