Topic Model的分類總結(LDA變種)

轉自:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcd


Topic models主要可以分爲四大類:


1.無監督無層次結構, 主要有:

    (1)PLSA(Hofmann 1999), 

    (2) LDA(Blei et al., 2003), 

    (3)Correlated Topic Model (Blei and Lafferty, 2006 )

         CTM主要是爲了克服標準LDA模型不能建模話題在文檔中出現的相關性的缺點,將LDA中文檔話題分佈服從的Dirichlet分佈改爲Logistic正態分佈。例如CTM論文中舉的一個例子是在Science雜誌語料中,一篇遺傳學文章很可能也跟健康和疾病有關,但是卻不大可能跟射線天文學有關。

    因爲Logistic正態分佈不再是Multinomial分佈的共軛分佈,因此模型的解變得更加複雜。對此,作者使用的方法是,在變分推理的過程中,繼續使用Taylor展開式以簡化似然函數下界的複雜性。

                                     圖X Correlated Topic Model 模型的圖形表示


         07年CTM詳細版本:CTM2007

           CTM的變分推導細節見另一個學者的文檔:Variational EM Algorithms for Correlated Topic Models


    (4) PAM(Li and McCallum, ICML 2006),

    Concept Topic Model


2. 無監督有層次結構, 主要有: 

     HLDA(Blei NIPS 2003), 

     HDP(Teh et al., 2005):標準LDA模型中話題的個數K需要已知,然而很多時候確定K的大小是一件困難的事情。HDP能夠根據數據自動確定K的大小。

     HPAM(Mimno et al., ICML 2007)


3. 有監督無層次結構主要有: S-LDA( Blei et al., 2007), Disc-LDAMM-LDAAuthor-ModelLabeled LDA(Ramage et al., 2009), PLDA(Wang et al., 2009) 等


4. 有監督有層次結構主要有: hLLDA(Petinot et al., ACL 2011), HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)



除上述集中類型的話題模型外,還有一些半監督的話題模型,主要有:

Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)


另一些LDA變種主要是爲了描述一些鏈接信息而作的擴展:


Link LDA (2004)

Topic-Link LDA(Liu et al., ICML 2009)


RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文檔之間有連接關係,即對一個文檔網絡建模。使用一個響應變量來表示文檔之間的關係。


Author-topic model(Rosen-Zvi et al., UAI 2004): 將文檔作者也考慮進去


DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,話題隨時間的演變


STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction


Social-Network Analysis Using Topic Model SIGIR2012



發佈了98 篇原創文章 · 獲贊 50 · 訪問量 55萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章