將文本的符號表示轉換爲語義空間中的向量表示是現在量化比較語義的通用做法,這類方法通常都基於Harris的分佈式假設,即在相似上下文中的詞通常都有着相似的語義.
下面首先會對已有的一些文本語義表示模型進行介紹.
表示形式
Term-Document Matrix
這種是最原始的一種語義衡量方法,主要用於文檔檢索,比較不同文檔間的語義,其核心就是Term-Document Matrix,如下圖所示,可以很明顯看到,每一行代表着一個詞,每一列代表着一個文檔,矩陣中的元素就是統計某個詞在某個文檔中出現的頻次.
如何衡量文檔的相似性,可以在下圖看的一清二楚了.
Term-Context Matrix
像詞-文檔矩陣一樣,詞-上下文矩陣如下圖所示,只是統計的對象變成了詞-上下文.通常來說,這種表示粒度更小,對於語義的比較也更爲有利.
如果對語義向量空間的表示原理想了解得更加清楚,可以參看文獻[1].
但是對於應用來說,這類直接通過統計得到的矩陣表示,雖然能夠一定程度上展示之間的差異性,但是對於語義比較來說,仍然沒有足夠的區分度.因此後續會在此基礎上,引入更多的處理方法.
PMI
點互信息(PMI,Pointwise Mutual Information)就是這樣一個工具,
首先需要提到互信息的表示方式,互信息用於衡量
點互信息定義爲,
但是由於 的值可能爲負,因此通常都不會用PMI,而是使用一個剪切版——PPMI(非負PMI),即 ,還有更進一步的 ,文獻[3]中取
另外一個解決PMI爲負的方法是Laplace平滑法.
表示形式再加工
tf-idf
這種方法主要是
tf(term frequency)就是文檔中該詞的出現頻次.重點是idf(inverse document frequency),就經驗上來說,如果一個詞出現在很多文檔中,那麼這個詞對於該文檔就很沒有辨識度,也就是信息量太少,如“是,我”這一類的詞.因此應該考慮量化該詞所負載的信息量,也就是idf,在所有文檔中出現的頻次不是很高,即 .
這種方法主要用於信息檢索方面.
還有更多的一些衡量方法,如t-檢驗等.
距離度量
這裏就要對上面提到的那些方法得到的結果進行具體的距離度量.直接的方法就是求兩個表示向量的點積,但是這樣的話,得到的點積結果很有可能會很大,同時,詞的頻次大小會直接影響最後的結構,因此使用最多的就是 距離度量,也就是標準化後的距離 .
也有一些替代方案,如Jaccard(最早用於二進制向量)
以及Dice度量方式
如果向量表示一個概率分佈(向量和爲1),那麼比較兩個概率分佈相似性的度量方法就也可以使用了,如KL散度.
但是由於有限的語料,帶來的稀疏性,上式的分母可能爲零,因此改爲使用Jensen-Shannon散度
總結如下圖所示,
資料來源:
[1]. Turney P D, Pantel P. From frequency to meaning: Vector space models of semantics[J]. Journal of artificial intelligence research, 2010, 37: 141-188.
[2]. Levy O, Goldberg Y, Dagan I. Improving distributional similarity with lessons learned from word embeddings[J]. Transactions of the Association for Computational Linguistics, 2015, 3: 211-225.
[2].《speech and language processing》,https://web.stanford.edu/~jurafsky/slp3/15.pdf
本作品採用知識共享署名-非商業性使用-相同方式共享 3.0 中國大陸許可協議進行許可。