https://blog.csdn.net/jinping_shi/article/details/59613054

高斯混合模型（Gaussian Mixed Model）指的是多個高斯分佈函數的線性組合，理論上GMM可以擬合出任意類型的分佈，通常用於解決同一集合下的數據包含多個不同的分佈的情況（或者是同一類分佈但參數不一樣，或者是不同類型的分佈，比如正態分佈和伯努利分佈）。

如圖1，圖中的點在我們看來明顯分成兩個聚類。這兩個聚類中的點分別通過兩個不同的正態分佈隨機生成而來。但是如果沒有GMM，那麼只能用一個的二維高斯分佈來描述圖1中的數據。圖1中的橢圓即爲二倍標準差的正態分佈橢圓。這顯然不太合理，畢竟肉眼一看就覺得應該把它們分成兩類。

圖1

這時候就可以使用GMM了！如圖2，數據在平面上的空間分佈和圖1一樣，這時使用兩個二維高斯分佈來描述圖2中的數據，分別記爲N(μ1,Σ1)和N(μ2,Σ2). 圖中的兩個橢圓分別是這兩個高斯分佈的二倍標準差橢圓。可以看到使用兩個二維高斯分佈來描述圖中的數據顯然更合理。實際上圖中的兩個聚類的中的點是通過兩個不同的正態分佈隨機生成而來。如果將兩個二維高斯分佈N(μ1,Σ1)和N(μ2,Σ2)合成一個二維的分佈，那麼就可以用合成後的分佈來描述圖2中的所有點。最直觀的方法就是對這兩個二維高斯分佈做線性組合，用線性組合後的分佈來描述整個集合中的數據。這就是高斯混合模型（GMM）。

圖2

高斯混合模型（GMM）

設有隨機變量X，則混合高斯模型可以用下式表示：

p (x) = \sum k = 1 K π k N (x | μ k, Σ k)

其中N(x|μk,Σk)稱爲混合模型中的第k個分量（component）。如前面圖2中的例子，有兩個聚類，可以用兩個二維高斯分佈來表示，那麼分量數K=2. πk是混合係數（mixture coefficient），且滿足：

\sum k = 1 K π k = 1

0 \leq π k \leq 1

可以看到πk相當於每個分量N(x|μk,Σk)的權重。

GMM的應用

GMM常用於聚類。如果要從 GMM 的分佈中隨機地取一個點的話，實際上可以分爲兩步：首先隨機地在這 K 個 Component 之中選一個，每個 Component 被選中的概率實際上就是它的係數πk ，選中 Component 之後，再單獨地考慮從這個 Component 的分佈中選取一個點就可以了──這裏已經回到了普通的 Gaussian 分佈，轉化爲已知的問題。

將GMM用於聚類時，假設數據服從混合高斯分佈（Mixture Gaussian Distribution），那麼只要根據數據推出 GMM 的概率分佈來就可以了；然後 GMM 的 K 個 Component 實際上對應K個 cluster 。根據數據來推算概率密度通常被稱作 density estimation 。特別地，當我已知（或假定）概率密度函數的形式，而要估計其中的參數的過程被稱作『參數估計』。

例如圖2的例子，很明顯有兩個聚類，可以定義K=2. 那麼對應的GMM形式如下：

p (x) = π 1 N (x | μ 1, Σ 1) + π 2 N (x | μ 2, Σ 2)

上式中未知的參數有六個：(π1,μ1,Σ1;π2,μ2,Σ2). 之前提到GMM聚類時分爲兩步，第一步是隨機地在這K個分量中選一個，每個分量被選中的概率即爲混合係數πk. 可以設定π1=π2=0.5，表示每個分量被選中的概率是0.5，即從中抽出一個點，這個點屬於第一類的概率和第二類的概率各佔一半。但實際應用中事先指定πk的值是很笨的做法，當問題一般化後，會出現一個問題：當從圖2中的集合隨機選取一個點，怎麼知道這個點是來自N(x|μ1,Σ1)還是N(x|μ2,Σ2)呢？換言之怎麼根據數據自動確定π1和π2的值？這就是GMM參數估計的問題。要解決這個問題，可以使用EM算法。通過EM算法，我們可以迭代計算出GMM中的參數：(πk,xk,Σk).

GMM參數估計過程

GMM的貝葉斯理解

在介紹GMM參數估計之前，我們先改寫GMM的形式，改寫之後的GMM模型可以方便地使用EM估計參數。GMM的原始形式如下：

p (x) = \sum k = 1 K π k N (x | μ k, Σ k) (1)

前面提到πk可以看成是第k類被選中的概率。我們引入一個新的K維隨機變量z. zk(1≤k≤K)只能取0或1兩個值；zk=1表示第k類被選中的概率，即：p(zk=1)=πk；如果zk=0表示第k類沒有被選中的概率。更數學化一點，zk要滿足以下兩個條件：

z k \in {0, 1}

\sum K z k = 1

例如圖2中的例子，有兩類，則z的維數是2. 如果從第一類中取出一個點，則z=(1,0)；，如果從第二類中取出一個點，則z=(0,1).

zk=1的概率就是πk，假設zk之間是獨立同分布的（iid），我們可以寫出z的聯合概率分佈形式：

p (z) = p (z 1) p (z 2) . . . p (z K) = \prod k = 1 K π z k k (2)

因爲zk只能取0或1，且z中只能有一個zk爲1而其它zj(j≠k)全爲0，所以上式是成立的。

圖2中的數據可以分爲兩類，顯然，每一類中的數據都是服從正態分佈的。這個敘述可以用條件概率來表示：

p (x | z k = 1) = N (x | μ k, Σ k)

即第kk類中的數據服從正態分佈。進而上式有可以寫成如下形式：

p (x | z) = \prod k = 1 K N (x | μ k, Σ k) z k (3)

上面分別給出了p(z)和p(x|z)的形式，根據條件概率公式，可以求出p(x)的形式：

p (x) = \sum z p (z) p (x | z) = \sum i = 1 K π k N (x | μ k, Σ k) (z k = 0 的 項 爲 1 ， 省 略) (4)

可以看到GMM模型的(1)式與(4)式有一樣的形式，且(4)式中引入了一個新的變量z，通常稱爲隱含變量（latent variable）。對於圖2中的數據，『隱含』的意義是：我們知道數據可以分成兩類，但是隨機抽取一個數據點，我們不知道這個數據點屬於第一類還是第二類，它的歸屬我們觀察不到，因此引入一個隱含變量z來描述這個現象。

注意到在貝葉斯的思想下，p(z)是先驗概率， p(x|z)是似然概率，很自然我們會想到求出後驗概率p(z|x)：

γ (z k) = p (z k = 1 | x) = p ( z k = 1 ) p ( x | z k = 1 ) p ( x , z k = 1 ) = p ( z k = 1 ) p ( x | z k = 1 ) \sum K j = 1 p ( z j = 1 ) p ( x | z j = 1 ) (全 概 率 公 式) = π k N ( x | μ k , Σ k ) \sum K j = 1 π j N ( x | μ j , Σ j ) (結 合 (3)(4)) (5)

上式中我們定義符號γ(zk)來表示來表示第k個分量的後驗概率。在貝葉斯的觀點下，πk可視爲zk=1的先驗概率。

上述內容改寫了GMM的形式，並引入了隱含變量z和已知x後的的後驗概率γ(zk)，這樣做是爲了方便使用EM算法來估計GMM的參數。

EM算法估計GMM參數

EM算法（Expectation-Maximization algorithm）分兩步，第一步先求出要估計參數的粗略值，第二步使用第一步的值最大化似然函數。因此要先求出GMM的似然函數。

假設x={x1,x2,...,xN}，對於圖2，x是圖中所有點（每個點有在二維平面上有兩個座標，是二維向量，因此x1,x2等都用粗體表示）。GMM的概率模型如(1)式所示。GMM模型中有三個參數需要估計，分別是π，μ和Σ. 將(1)式稍微改寫一下：

p (x | π, μ, Σ) = \sum k = 1 K π k N (x | μ k, Σ k) (6)

爲了估計這三個參數，需要分別求解出這三個參數的最大似然函數。先求解μk的最大似然函數。對(6)式取對數後再對μk求導並令導數爲0即得到最大似然函數。

0 = - \sum n = 1 N π k N ( x n | μ k , Σ k ) \sum j π j N ( x n | μ j , Σ j ) Σ k (x n - μ k) (7)

注意到上式中分數的一項的形式正好是(5)式後驗概率的形式。兩邊同乘Σ−1k，重新整理可以得到：

μ k = 1 N k \sum n = 1 N γ (z n k) x n (8)

其中：

N k = \sum n = 1 N γ (z n k) (9)

(8)式和(9)式中，N表示點的數量。γ(znk)表示點n（xn）屬於聚類k的後驗概率。則Nk可以表示屬於第k個聚類的點的數量。那麼μk表示所有點的加權平均，每個點的權值是∑Nn=1γ(znk)，跟第k個聚類有關。

同理求Σk的最大似然函數，可以得到：

Σ k = 1 N k \sum n = 1 N γ (z n k) (x n - μ k) (x n - μ k) T (10)

最後剩下πk的最大似然函數。注意到πk有限制條件∑Kk=1πk=1，因此我們需要加入拉格朗日算子：

ln p (x | π, μ, Σ) + λ (\sum k = 1 K π k - 1)

求上式關於πk的最大似然函數，得到：

0 = \sum n = 1 N N ( x n | μ k , Σ k ) \sum j π j N ( x n | μ j , Σ j ) + λ (11)

上式兩邊同乘πk，可以得到λ=−N，進而可以得到πk更簡潔的表達式：

π k = N k N (12)

EM算法估計GMM參數即最大化(8)，(10)和(12)。需要用到(5)，(8)，(10)和(12)四個公式。我們先指定π，μ和Σ的初始值，帶入(5)中計算出γ(znk)，然後再將γ(znk)帶入(8)，(10)和(12)，求得πk，μk和Σk；接着用求得的πk，μk和Σk再帶入(5)得到新的γ(znk)，再將更新後的γ(znk)帶入(8)，(10)和(12)，如此往復，直到算法收斂。

EM算法

定義分量數目K，對每個分量k設置πk，μk和Σk的初始值，然後計算(6)式的對數似然函數。
E step
根據當前的πk、μk、Σk計算後驗概率γ(znk)
$γ (z n k) = π k N ( x n | μ n , Σ n ) \sum K j = 1 π j N ( x n | μ j , Σ j )$
M step
根據E step中計算的γ(znk)再計算新的πk、μk、Σk
$μ n e w k Σ n e w k π n e w k = 1 N k \sum n = 1 N γ (z n k) x n = 1 N k \sum n = 1 N γ (z n k) (x n - μ n e w k) (x n - μ n e w k) T = N k N$
其中：
$N k = \sum n = 1 N γ (z n k)$
計算(6)式的對數似然函數
$ln p (x | π, μ, Σ) = \sum n = 1 N ln {\sum k = 1 K π k N (x k | μ k, Σ k)}$
檢查參數是否收斂或對數似然函數是否收斂，若不收斂，則返回第2步。

Reference

漫談 Clustering (3): Gaussian Mixture Model
Draw Gaussian distribution ellipse
Pang-Ning Tan 等, 數據挖掘導論（英文版）, 機械工業出版社, 2010
Christopher M. Bishop etc., Pattern Recognition and Machine Learning, Springer, 2006

Ivy_daisy

發佈了7 篇原創文章 · 獲贊 21 · 訪問量 7萬+

私信關注

高斯混合模型（GMM）及其EM算法的理解

高斯混合模型（GMM）

GMM的應用

GMM參數估計過程

GMM的貝葉斯理解

EM算法估計GMM參數

EM算法

Reference

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Visual Studio Community 2015 Setup Blocked

機器學習的Hello Word——Softmax Regression識別手寫數字

高斯混合模型（GMM）及其EM算法的理解

tensorflow中slim模塊api介紹

Windows10下python3.5.2+CUDA8.0+TensorFlow安裝日記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結