Topic models主要可以分爲四大類:
1.無監督無層次結構, 主要有:
(1)PLSA(Hofmann 1999),
(2) LDA(Blei et al., 2003),
(3)Correlated Topic Model (Blei and Lafferty, 2006 )
CTM主要是爲了克服標準LDA模型不能建模話題在文檔中出現的相關性的缺點,將LDA中文檔話題分佈服從的Dirichlet分佈改爲Logistic正態分佈。例如CTM論文中舉的一個例子是在Science雜誌語料中,一篇遺傳學文章很可能也跟健康和疾病有關,但是卻不大可能跟射線天文學有關。
因爲Logistic正態分佈不再是Multinomial分佈的共軛分佈,因此模型的解變得更加複雜。對此,作者使用的方法是,在變分推理的過程中,繼續使用Taylor展開式以簡化似然函數下界的複雜性。
圖X Correlated Topic Model 模型的圖形表示
07年CTM詳細版本:CTM2007
CTM的變分推導細節見另一個學者的文檔:Variational EM Algorithms for Correlated Topic Models
(4) PAM(Li and McCallum, ICML 2006),
Concept Topic Model等
2. 無監督有層次結構, 主要有:
HLDA(Blei NIPS 2003),
HDP(Teh et al., 2005):標準LDA模型中話題的個數K需要已知,然而很多時候確定K的大小是一件困難的事情。HDP能夠根據數據自動確定K的大小。
HPAM(Mimno et al., ICML 2007)
3. 有監督無層次結構, 主要有: S-LDA( Blei et al., 2007), Disc-LDA, MM-LDA, Author-Model, Labeled LDA(Ramage et al., 2009), PLDA(Wang et al., 2009) 等
4. 有監督有層次結構, 主要有: hLLDA(Petinot et al., ACL 2011), HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)
除上述集中類型的話題模型外,還有一些半監督的話題模型,主要有:
Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)
另一些LDA變種主要是爲了描述一些鏈接信息而作的擴展:
Link LDA (2004)
Topic-Link LDA(Liu et al., ICML 2009)
RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文檔之間有連接關係,即對一個文檔網絡建模。使用一個響應變量來表示文檔之間的關係。
Author-topic model(Rosen-Zvi et al., UAI 2004): 將文檔作者也考慮進去
DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,話題隨時間的演變
STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction
Social-Network Analysis Using Topic Model SIGIR2012