期望最大化算法EM

1、文本的自動收斂分類

文本TF-IDF向量的計算,餘弦距離的計算;

隨機挑出一些類的中心,優化這些中心,使它們和真實的中心和真實的聚類中心儘可能一致。

類數可以確定,也可以不定。

分類步驟:

(1)隨機選K個點,作爲起始中心

(2)計算所有點到這些聚類中心的距離,把這些點歸到最近的一類中

(3)重新計算每一類的中心,最簡單的是用每一類的中心作爲新的中心(分別計算每一維的平均值)。新的聚類中心和原來的相比會有一個位移

(4)重複上面三步,直到新的中心和原來中心偏移量很小,即過程收斂。

這個過程不需要任何人工干預 和 先驗經驗。

2、EM(expectation maximization)

距離函數要足夠好,保證同一類相對距離較近,而不同類的相對距離較遠。

算法包含兩個過程和一組目標函數:

(1)根據現有聚類,對數據重新劃分,若把聚類中心以及每一個點和聚類的隸屬關係看成模型的參數;

(2)根據重新劃分的結果,得到新的聚類。

目標函數是點到聚類的距離-d和聚類之間的距離D,整個過程就是要最大化目標函數。

 

E過程:根據現有模型,計算各個觀測參數輸入到模型中的計算結果

M過程:重新計算模型參數,以最大化期望值

 

Baum-Welch算法中

E過程就是,根據現有的模型計算每個狀態之間的轉移次數以及每個狀態產生他們輸出的次數

M過程就是,根據這些次數重新估計HMM模型的參數

最大化的目標函數是:觀測值的概率。

 

EM算法中,若目標函數爲凸函數(熵函數;若在N維空間以歐氏距離做度量,聚類中試圖優化的兩個函數也是凸函數),則可以得到全局最優解;文本分類中的餘弦定理不是凸函數,不能保證最優解。

EM算法只需要有一些訓練數據,定義一個最大化函數,剩下工作交給計算機,經過若干次的訓練,模型就訓練好了,稱爲上帝的算法。

 

概念介紹:http://luowei828.blog.163.com/blog/static/3103120420120142193960/

具體公式推導:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章