單元高斯分佈(The univariate Gaussian),我們高中時就知道了,其表達式如下:
N(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}
而多元高斯分佈(Multivariate Gaussian Distribution)就是有多個參數控制的高斯分佈,其均值是一個均值向量μ,設均值向量維度爲D,而方差則是方差矩陣Σ,因此其表達式如下:
N(x|μ,Σ)=1(2π)D/21|Σ|1/2exp{−12(x−μ)TΣ−1(x−μ)}
書中P84,P111對於單個的高斯分佈對數據建模的缺點作了描述。由於單個高斯模型是一個unimodal,意即模型只有一個最大值的(看到某頁面上稱之爲“單模態”)(P84:has a single maximum),所以如P111所說的,單個高斯模型表示能力很有限,當數據有兩個峯時就沒法很好表示啦。因此需要混合高斯分佈。
設有K個高斯分佈混合在一起,每一個高斯分佈稱爲一個Component,那麼混合高斯分佈表達式爲(這個表達式來自P111):
p(x)=∑k=1KπkN(x|μk,Σk)
其中πk稱爲mixing coefficients,並且∑k=1Kπk=1
P430引入了一個二元隨機變量z,它的表示方法跟多項分佈的表示方法一樣,都是1-of-K representation,即zk∈{0,1}並且∑kzk=1 (意即對於K維的向量z只有一個值是1,其他所有值都是0),這樣就可以用z來表示πk,它們之間的關係是p(zk=1)=πk。所以z的概率分佈類似於多項分佈的表示,即
p(z)=∏k=1Kπkzk 式9.10
(=πk當對應k的那個zk是1時,因爲其他指數都是0)
已知z之後,x對於z的條件分佈爲
p(x|zk=1)=N(x|μk,Σk) 式9.11
根據P431頁圖模型(z->x),x與z的聯合概率爲p(x,z)=p(z)p(x|z),而將這個聯合概率對x取邊緣概率,就得到了如下(結合9.10和9.11):
p(x)=∑zp(z)p(x|z)=∑k=1KπkN(x|μk,Σk)
這就是混合高斯分佈表達式的推導過程。之所以要引入這個隱含變量z是爲了引入EM算法,這個之後再說。
另一個重要變量是γ(zk),表示當觀察到x時它由第k個Component產生的概率,即γ(zk)=p(zk=1|x),更具體的
γ(zk)=p(zk=1|x)=p(zk=1)p(x|zk=1)∑j=1Kp(zj=1)p(x|zj=1)
=πkN(x|μk,Σk)∑j=1KπjN(x|μj,Σj) 式9.13
這個式9.13後面介紹EM算法的時候要用到,這裏先寫一下。
P432講的是從混合高斯分佈Sample的過程,使用了圖模型那章講的ancestral sampling(P365)(其實就是根據圖模型的拓撲結構依次sample隨機變量值)。混合高斯分佈的sample過程很簡單(z->x),現根據p(z)選擇z,即選擇第zk個Component,此時已知z,然後再sample p(x|z),即式9.11啦,所以此時從第k個Component Sample 出來的x值已經和z無關了(z已知)