數據挖掘:Top 10 Algorithms in Data Mining(五)EM算法

      EM的核心是通過已有的數據來遞歸的估計似然函數,常用用在樣本特徵丟失的情況中。其前身爲Baum-Welch算法。EM與K-means比較:計算複雜,收斂較慢,依賴初始值,容易進入局部最優點。

     K-means的迭代步驟可以看成E步和M步,E:固定參數類別中心向量重新標記樣本,M:固定標記樣本調整類別中心向量。K均值只考慮(估計)了均值,而沒有估計類別的方差,所以聚類的結構比較適合於特徵協方差相等的類別。

      假設完整的樣本集D={x1,……,xn}服從某個特定分佈。假設一些特徵丟失。設任一樣本爲xi={xig,xib},表示樣本的特徵由兩部分組成:xig表示完整的樣本特徵;xib表示丟失或損壞的特徵。我們用Dg和Db分別表示兩類特徵集。全部特徵集D=DgUDb。

 em

分號表示上式左邊是一個關於θ的函數,θ^i表示已經取固定值。右邊表示丟失特徵求對數似然函數的期望。θ^i表示表示整個分佈的真實參數。該公試爲EM算法的核心。

θ^i爲當前對樣本集分佈最好的估計,θ則是在次基礎上對θ^i改進的一個候選參數,即θ是下一個θ^i的候選。

http://www.tnove.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章