詞袋模型

1.概述

bag of words詞袋模型是信息檢索領域常見的文檔表示方法,BOW模型假定對於一個文檔,忽略其單詞順序、語法、句法等要素,僅看做是若干詞彙組合(文檔中每個單詞的出現都是相對獨立的,不依賴於其他單詞是否出現),近年來BoW模型廣泛應用於計算機視覺領域

1.詞頻做向量值

John likes to watch movies. Mary likes too.
John also likes to watch football games.

根據上述兩句話中出現單詞, 構建一個字典dict:

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

該字典中包含10個單詞, 每個單詞有唯一索引, 詞典索引順序和單詞出現在句子中的順序沒有關聯。根據字典將上述兩句話重新表達爲下述兩個向量:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

這兩個向量共包含10個元素(詞典角度), 向量第i個元素表示字典中第i個單詞在句子中的出現次數,因此BOW模型可認爲是一種統計直方圖。在文本檢索與處理應用中,可以通過該模型很方便的計算詞頻。但也能看出在構造文檔向量過程中並沒有表達單詞在原來句子中的出現次序

2.詞權重做向量值(TFIDF\CHI\MI)

2.適用場景

一個巨大文檔集合D,裏面共有M個文檔,將文檔中所有單詞提取後,構成一個包含N個單詞的詞典,利用Bag of words模型,每個文檔都可以被表示成爲一個N維向量,接着可通過計算餘弦來求兩個文檔間的相似度,也可以將這個向量作爲特徵向量送入分類器進行主題分類等一系列功能中去

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章