詞向量與句向量概述

原創

2019-01-25 19:29

比較常見的詞向量表示方式：glove、fasttext、wordRank、tfidf-BOW、word2vec

詞向量一般看作是文檔特徵，不同詞向量有不同用法，主要有四類詞向量：1.hash算法及衍生；2.BOW算法延伸；3.word2vec延伸；4.LDA主題延伸

一個詞一列向量-----> hash算法--->word2vec(考慮上下文語境)

一個詞一個向量----->BOW算法-->LDA(考慮語言多義)

一詞一列向量hash將詞打散成(01010101110)的數值。word2vec在打散的同時定義向量，還考慮了單詞上下文語義，doc2vec額外考慮上下語句順序(單詞在段落中順序)，用在段落中比較好

一個詞一個值(bow算法+詞權重，LDA主題-詞語矩陣)兩者遞進，LDA運算耗時，業界用的較少

1.如果是一詞一列向量，一般用簡單相加(相加被證明是最科學)求得句向量

2.如果一詞一個向量，就用詞權重組合成句向量方式

3.谷歌句向量sen2vec直接將句子變成列向量

句向量：對於短語或句子，將組成單詞對應的所有詞向量加起來，作爲短語向量、句向量

消除歧義：LDA主題模型-詞句向量

結合上下文語境：word2vec

文檔與文檔間關係：bow+tfidf

一般來說，hash值效果稍微差一點，其他三類均不錯

文本分類：BOW+TFIDF(TFIDF能較好區分不同文檔)，word2vec，LDA主題-詞語向量(潛在語義發現)

文本相似性：word2vec(結合上下文語境，短文本效果良好)、LDA主題-詞語向量(文檔語義挖掘)

文本主題建模：LDA模型

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.