文本表示

要使得計算機能高效的處理真實文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實的反映文檔內容(主題、領域或結構等),另一方面也要有對不同文檔的區分能力。

 

目前文本表示通常採用向量空間模型(vector space model, VSM) 。VSM是20世紀60年代末期由G. Salton等人提出的,是當前自然語言處理中常用的主流模型。

 

下面首先給出VSM設計的基本概念:

(1) 文檔(document): 通常是文章中具有一定規模的字符串。文檔通常我們也叫文本。

(2) 特徵項 (feature term): 是VSM中最小的不可分的語言單元,可以是字、詞、詞組、短語等。一個文檔內容可以被看成是它含有的特徵項的集合。表示爲一個向量:D(t1,t2,...,tn),其中tk是特徵項。

(3) 特徵項權重 (term weight): 對於含有n個特徵項的文檔D(t1,t2,..,tn),每一個特徵項tk都依據一定的原則被賦予了一個權重wk,表示該特徵相在文檔中的重要程度。這樣一個文檔D可用它含有的特徵項及其特徵項所對應的權重所表示: D(t1=w1,t2=w2,...,tn=wn),簡記爲D(w1,w2,...,wn),其中wk就是特徵項tk的權重。

 

一個文檔在上述約定下可以看成是n維空間中的一個向量,這就是VSM的由來,下面給出其定義。

定義(向量空間模型VSM)給定一個文檔D(t1,w1;t2,w2;...;tn,wn),D符合以下兩條約定:

1)各個特徵項tk互異(即沒有重複);

2)各個特徵項tk無先後順序關係(即不考慮文檔的內部結構)。


在以上兩個約定下,可以把特徵項t1,t2,……tn看成一個n維座標系,而權重w1,w2,……wn爲相應的座標值,因此,一個文本就表示爲N維空間中的一個向量。我們稱D=D(w1,w2,...,wn)爲文本D的向量表示或向量空間模型。


 

定義(向量的相似性度量simlilarity) 任意兩個文檔D1和D2之間的相似性係數sim(D1,D2)指兩個文檔內容的相關程度(degree of relevance)。設文檔D1和D2表示VSM中的兩個向量:



那麼可以藉助N維向量空間中兩個向量之間的某種距離來表示文檔見的相似係數,常用的方法是使用向量之間的內積來計算:



如果考慮向量的歸一化,則可以使用兩個向量夾角的餘弦值來表示相似係數:



採用VSM進行文本表示時,需要經過以下兩個主要步驟:

1)根據訓練樣本集生成文本表示所需要的特徵項序列D = {t1,t2,……,td};

2)依據文本特徵項序列,對訓練樣本集和測試樣本集中的各個文檔進行權值賦值、規範化等處理,將其轉化爲機器學習算法所需的特徵向量。


另外,用VSM表示文檔時,首先要對各個文檔進行詞彙化處理,在英文、法文等西方語言中這項工作相對簡單,但在漢語中主要取決於漢語自動分詞技術。


除了VSM方法之外,還有例如:詞組表示法,概念表示法等。詞組表示法對文本分類效果的提高並不十分明顯。概念表示法需要額外的語言資源,主要是一些語義詞典,例如英文的Wordnet,中文的hownet。相關研究表明,用概念代替單個詞可以在一定程度上解決自然語言的歧義性和多樣性給特徵向量帶來的噪聲問題,有利於提高文本分類效果。


 

VSM模型爲計算機處理文本分類打下了夯實的數學基礎,但是一篇文本到底用哪些特徵項來表示呢?比如在《【文本分類】 概述 》文章中舉的那篇NBA文本的例子,我們可以用所有標藍的詞語作爲特徵項來表示文本向量:

 

           D = {勒布朗-詹姆斯 ,德維恩-韋德 , 里斯-波什 ,新賽季 ,邁阿密熱火 ,總冠軍 ,熱火 ,球隊 ,衛冕冠軍,湖人 ,凱爾特人 ,休賽期 ,聯盟 }

 

 而且這些特徵項在文章中的權重是如何計算的呢? 關於這幾個問題,我們都將在後面的特徵提取方法和特徵權重計算方法中講到。

 

因爲統計學習方法的理論基礎(即文檔的內容與其中所包含的詞有着必然的聯繫,同一類文檔之間總存在多個共同的詞,而不同類的文檔所包含的詞之間差異很大。進一步的,不光是包含哪些詞很重要,這些詞出現的次數對分類也很重要)。使得

VSM成了適合文本分類問題的文檔表示模型。在這種模型中,一篇文章被看作特徵項集合來看,利用加權特徵項構成向量進行文本表示,利用詞頻信息對文本特徵進行加權。它實現起來比較簡單,並且分類準確度也高,能夠滿足一般應用的要求。


而實際上,文本是一種信息載體,其所攜帶的信息由幾部分組成:如組成元素本身的信息(詞的信息)、組成元素之間順序關係帶來的信息以及上下文信息(更嚴格的說,還包括閱讀者本身的背景和理解)而VSM這種文檔表示模型,基本上完全忽略了除詞的信息以外所有的部分,這使得它能表達的信息量存在上限,也直接導致了基於這種模型構建的文本分類系統(雖然這是目前絕對主流的做法),幾乎永遠也不可能達到人類的分類能力。後面我們也會談到,相比於所謂的分類算法,對特徵的選擇,也就是使用哪些特徵來代表一篇文檔,往往更能影響分類的效果。


對於擴充文檔表示模型所包含的信息量,人們也做過有益的嘗試,例如被稱爲LSI(Latent Semantic Index潛在語義索引)的方法,就被實驗證明保留了一定的語義信息(之所以說被實驗證明了,是因爲人們還無法在形式上嚴格地證明它確實保留了語義信息,而且這種語義信息並非以人可以理解的方式被保留下來),此爲後話。

實際上:統計學習方法其實就是一個兩階段的解決方案,(1)訓練階段,由計算機來總結分類的規則;(2)分類階段,給計算機一些它從來沒見過的文檔,讓它分類 。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章