文本特徵提取方法研究

一、課題背景概述

文本挖掘是一門交叉性學科,涉及數據挖掘、機器學習、模式識別、人工智能、統計學、計算機語言學、計算機網絡技術、信息學等多個領域。文本挖掘就是從大量的文檔中發現隱含知識和模式的一種方法和工具,它從數據挖掘發展而來,但與傳統的數據挖掘又有許多不同。文本挖掘的對象是海量、異構、分佈的文檔(web);文檔內容是人類所使用的自然語言,缺乏計算機可理解的語義。傳統數據挖掘所處理的數據是結構化的,而文檔(web)都是半結構或無結構的。所以,文本挖掘面臨的首要問題是如何在計算機中合理地表示文本,使之既要包含足夠的信息以反映文本的特徵,又不至於過於複雜使學習算法無法處理。在浩如煙海的網絡信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB內容挖掘的一種重要形式。

文本的表示及其特徵項的選取是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特徵詞進行量化來表示文本信息。將它們從一個無結構的原始文本轉化爲結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由於文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先將文本轉化爲可處理的結構化形式。目前人們通常採用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特徵項來表示文本向量中的各個維,那麼這個向量的維度將是非常的大。這種未經處理的文本矢量不僅給後續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結果很難令人滿意。因此,必須對文本向量做進一步淨化處理,在保證原文含義的基礎上,找出對文本特徵類別最具代表性的文本特徵。爲了解決這個問題,最有效的辦法就是通過特徵選擇來降維。

目前有關文本表示的研究主要集中於文本表示模型的選擇和特徵詞選擇算法的選取上。用於表示文本的基本單位通常稱爲文本的特徵或特徵項。特徵項必須具備一定的特性:1)特徵項要能夠確實標識文本內容;2)特徵項具有將目標文本與其他文本相區分的能力;3)特徵項的個數不能太多;4)特徵項分離要比較容易實現。在中文文本中可以採用字、詞或短語作爲表示文本的特徵項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數中文文本分類系統都採用詞作爲特徵項,稱作特徵詞。這些特徵詞作爲文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。如果把所有的詞都作爲特徵項,那麼特徵向量的維數將過於巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特徵抽取的主要功能是在不損傷文本核心信息的情況下儘量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。文本特徵選擇對文本內容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特徵評估函數計算各個特徵的評分值,然後按評分值對這些特徵進行排序,選取若干個評分值最高的作爲特徵詞,這就是特徵抽取(Feature Selection)

特徵選取的方式有4種:(I)用映射或變換的方法把原始特徵變換爲較少的新特徵;(2)從原始特徵中挑選出一些最具代表性的特徵;(3)根據專家的知識挑選最有影響的特徵;(4)用數學的方法進行選取,找出最具分類信息的特徵,這種方法是一種比較精確的方法,人爲因素的干擾較少,尤其適合於文本自動分類挖掘系統的應用。

隨着網絡知識組織、人工智能等學科的發展,文本特徵提取將向着數字化、智能化、語義化的方向深入發展,在社會知識管理方面發揮更大的作用。

二、文本特徵向量

經典的向量空間模型(VSM: Vector Space Model)由Salton等人於60年代提出,併成功地應用於著名的SMART文本檢索系統。VSM概念簡單,把對文本內容的處理簡化爲向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。當文檔被表示爲文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。文本處理中最常用的相似性度量方式是餘弦距離。文本挖掘系統採用向量空間模型,用特徵詞條(T1 ,T2 ,…Tn) 及其權值Wi 代表目標信息,在進行信息匹配時,使用這些特徵項評價未知文本與目標樣本的相關程度。特徵詞條及其權值的選取稱爲目標樣本的特徵提取,特徵提取算法的優劣將直接影響到系統的運行效果。

D爲一個包含m個文檔的文檔集合,Di爲第i個文檔的特徵向量,則有

D={D1,D2,…,Dm}, Di=(di1,di2,…,din),i=1,2,…,m

其中dij(i=1,2,,m;j=1,2,,n)爲文檔Di中第j個詞條tj的權值,它一般被定義爲tjDi中出現的頻率tij的函數,例如採用TFIDF函數,dij=tij*log(N/nj)其中,N是文檔數據庫中文檔總數,nj是文檔數據庫含有詞條tj的文檔數目。假設用戶給定的文檔向量爲Di,未知的文檔向量爲Dj,則兩者的相似程度可用兩向量的夾角餘弦來度量,夾角越小說明相似度越高。相似度的計算公式如下:

通過上述的向量空間模型,文本數據就轉換成了計算機可以處理的結構化數據,兩個文檔之間的相似性問題轉變成了兩個向量之間的相似性問題。

三、 基於統計的特徵提取方法(構造評估函數)

一、各種流行算法

這類型算法通過構造評估函數,對特徵集合中的每個特徵進行評估,並對每個特徵打分,這樣每個詞語都獲得一個評估值,又稱爲權值。然後將所有特徵按權值大小排序,提取預定數目的最優特徵作爲提取結果的特徵子集。顯然,對於這類型算法,決定文本特徵提取效果的主要因素是評估函數的質量。

 

1TF-IDF

單詞權重最爲有效的實現方法就是TF*IDF, 它是由Salton1988 年提出的。其中TF 稱爲詞頻用於計算該詞描述文檔內容的能力; IDF稱爲反文檔頻率用於計算該詞區分文檔的能力。TF*IDF 的指導思想建立在這樣一條基本假設之上在一個文本中出現很多次的單詞在另一個同類文本中出現次數也會很多反之亦然。所以如果特徵空間座標系取TF 詞頻作爲測度就可以體現同類文本的特點。另外還要考慮單詞區別不同類別的能力, TF*IDF 法認爲一個單詞出現的文本頻率越小它區別不同類別的能力就越大所以引入了逆文本頻度IDF 的概念TF IDF 的乘積作爲特徵空間座標系的取值測度。

TFIDF 法是以特徵詞在文檔d中出現的次數與包含該特徵詞的文檔數之比作爲該詞的權重,即

其中, Wi表示第i個特徵詞的權重,TFi(td)表示詞t在文檔d中的出現頻率,N表示總的文檔數,DF(t)表示包含t的文檔數。用TFIDF算法來計算特徵詞的權重值是表示當一個詞在這篇文檔中出現的頻率越高,同時在其他文檔中出現的次數越少,則表明該詞對於表示這篇文檔的區分能力越強,所以其權重值就應該越大。將所有詞的權值排序根據需要可以有兩種選擇方式:( 1) 選擇權值最大的某一固定數n個關鍵詞;( 2) 選擇權值大於某一閾值的關鍵詞。一些實驗表示,人工選擇關鍵詞, 4個比較合適機選關鍵詞1015 通常具有最好的覆蓋度和專指度。

TFIDF算法是建立在這樣一個假設之上的:對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語,所以如果特徵空間座標系取TF詞頻作爲測度,就可以體現同類文本的特點。另外考慮到單詞區別不同類別的能力,TFIDF法認爲一個單詞出現的文本頻數越小,它區別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TFIDF的乘積作爲特徵空間座標系的取值測度,並用它完成對權值TF的調整,調整權值的目的在於突出重要單詞,抑制次要單詞。但是在本質上IDF是一種試圖抑制噪音的加權 ,並且單純地認爲文本頻數小的單詞就越重要,文本頻數大的單詞就越無用,顯然這並不是完全正確的。IDF的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分佈情況,使其無法很好地完成對權值調整的功能,所以TFIDF法的精度並不是很高。

此外,在TFIDF算法中並沒有體現出單詞的位置信息,對於Web文檔而言,權重的計算方法應該體現出HTML的結構特徵。特徵詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此應該對於處於網頁不同位置的特徵詞分別賦予不同的係數,然後乘以特徵詞的詞頻,以提高文本表示的效果。

2、詞頻方法(Word Frequency)

詞頻是一個詞在文檔中出現的次數。通過詞頻進行特徵選擇就是將詞頻小於某一閉值的詞刪除,從而降低特徵空間的維數。這個方法是基於這樣一個假設,即出現頻率小的詞對過濾的影響也較小。但是在信息檢索的研究中認爲,有時頻率小的詞含有更多的信息。因此,在特徵選擇的過程中不宜簡單地根據詞頻大幅度刪詞。

3、文檔頻次方法(Document Frequency)

文檔頻數(Document Frequency, DF)是最爲簡單的一種特徵選擇算法,它指的是在整個數據集中有多少個文本包含這個單詞。在訓練文本集中對每個特徵計一算它的文檔頻次,並且根據預先設定的闌值去除那些文檔頻次特別低和特別高的特徵。文檔頻次通過在訓練文檔數量中計算線性近似複雜度來衡量巨大的文檔集,計算複雜度較低,能夠適用於任何語料,因此是特徵降維的常用方法。

在訓練文本集中對每個特徵計算它的文檔頻數,若該項的DF 值小於某個閾值則將其刪除,若其DF 值大於某個閾值也將其去掉。因爲他們分別代表了“沒有代表性”和“沒有區分度”2 種極端的情況。DF 特徵選取使稀有詞要麼不含有用信息,要麼太少而不足以對分類產生影響,要麼是噪音,所以可以刪去。DF 的優點在於計算量很小,而在實際運用中卻有很好的效果。缺點是稀有詞可能在某一類文本中並不稀有,也可能包含着重要的判斷信息,簡單捨棄,可能影響分類器的精度。

文檔頻數最大的優勢就是速度快,它的時間複雜度和文本數量成線性關係,所以非常適合於超大規模文本數據集的特徵選擇。不僅如此,文檔頻數還非常地高效,在有監督的特徵選擇應用中當刪除90%單詞的時候其性能與信息增益和x2 統計的性能還不相上下。DF 是最簡單的特徵項選取方法, 而且該方法的計算複雜度低, 能夠勝任大規模的分類任務。

但如果某一稀有詞條主要出現在某類訓練集中,卻能很好地反映類別的特徵,而因低於某個設定的閾值而濾除掉,這樣就會對分類精度有一定的影響。

4、互信息(Mutual Information)

互信息衡量的是某個詞和類別之間的統計獨立關係,某個詞t和某個類別Ci傳統的互信息定義如下:

互信息是計算語言學模型分析的常用方法,它度量兩個對象之間的相互性。在過濾問題中用於度量特徵對於主題的區分度。互信息的定義與交叉嫡近似。互信息本來是信息論中的一個概念,用於表示信息之間的關係, 是兩個隨機變量統計相關性的測度,使用互信息理論進行特徵抽取是基於如下假設:在某個特定類別出現頻率高,但在其他類別出現頻率比較低的詞條與該類的互信息比較大。通常用互信息作爲特徵詞和類別之問的測度,如果特徵詞屬於該類的話,它們的互信息量最大。由於該方法不需要對特徵詞和類別之問關係的性質作任何假設,因此非常適合於文本分類的特徵和類別的配準工作。

特徵項和類別的互信息體現了特徵項與類別的相關程度, 是一種廣泛用於建立詞關聯統計模型的標準。互信息與期望交叉熵的不同在於沒有考慮特徵出現的頻率, 這樣導致互信息評估函數不選擇高頻的有用詞而有可能選擇稀有詞作爲文本的最佳特徵。因爲對於每一主題來講,特徵t的互信息越大,說明它與該主題的共現概率越大,因此,以互信息作爲提取特徵的評價時應選互信息最大的若干個特徵。

互信息計算的時間複雜度類似於信息增益, 互信息的平均值就是信息增益。互信息的不足之處在於得分非常受詞條邊緣概率的影響。

實驗數據顯示,互信息分類效果最差,其次是文檔頻率、CC 統計,CHI 統計分類效果最好。

對互信息而言,提高分類精度的方法有:1) 可以增加特徵空間的維數,以提取足夠多的特徵信息,這樣就會帶來了時間和空間上的額外開銷;2) 根據互信息函數的定義,認爲這些低頻詞攜帶着較爲強烈的類別信息,從而對它們有不同程度的倚重. 當訓練語料庫沒有達到一定規模的時候,特徵空間中必然會存在大量的出現文檔頻率很低(比如低於3 次) 的詞條,他們較低的文檔頻率導致了他們必然只屬於少數類別. 但是從抽取出來的特徵詞觀察發現,大多數爲生僻詞,很少一部分確實帶有較強的類別信息,多數詞攜帶少量的類別信息,甚至是噪音詞.

5、期望交叉熵(Expected Cross Entropy)

交叉嫡與信息量的定義近似,其公式爲:

交叉嫡 ,也稱KL距離。它反映了文本主題類的概率分佈和在出現了某特定詞彙的條件下文本主題類的概率分佈之間的距離,詞彙w的交叉嫡越大,對文本主題類分佈的影響也越大。它與信息增益唯一的不同之處在於沒有考慮單詞未發生的情況,只計算出現在文本中的特徵項。如果特徵項和類別強相關, P ( Ci | w )就大,若P( Ci) 又很小的話,則說明該特徵對分類的影響大。

交叉熵反映了文本類別的概率分佈和在出現了某個特定詞的條件下文本類別的概率分佈之間的距離, 特徵詞t 的交叉熵越大, 對文本類別分佈的影響也越大。熵的特徵選擇效果都要優於信息增益。

6、二次信息熵(QEMI)

將二次熵函數應用於互信息評估方法中,取代互信息中的Shannon熵,就形成了基於二次熵的互信息評估函數。基於二次熵的互信息克服了互信息的隨機性,是一個確定的量,因此可以作爲信息的整體測度,另外它還比互信息最大化的計算複雜度要小,所以可以比較高效地用在基於分類的特徵選取上。

二次熵的概念是在廣義信息論中提出的。廣義熵:

 ,就得到了二次熵定義:

7、信息增益方法(Information Gain)

信息增益方法是機器學習的常用方法,在過濾問題中用於度量已知一個特徵是否出現於某主題相關文本中對於該主題預測有多少信息。通過計算信息增益可以得到那些在正例樣本中出現頻率高而在反例樣本中出現頻率低的特徵,以及那些在反例樣本中出現頻率高而在正例樣本中出現頻率低的特徵。信息增益G(w)的訓算公式如下:

其中P(w)是詞w出現的概率,P(Ci)是取第i個目錄時的概率,P(C,|w ) 是假定w出現時取第i個目錄的概率。

信息增益是一種基於熵的評估方法,涉及較多的數學理論和複雜的熵理論公式,定義爲某特徵項爲整個分類所能提供的信息量,不考慮任何特徵的熵與考慮該特徵後的熵的差值。他根據訓練數據,計算出各個特徵項的信息增益,刪除信息增益很小的項,其餘的按照信息增益從大到小排序。

信息增益是信息論中的一個重要概念, 它表示了某一個特徵項的存在與否對類別預測的影響, 定義爲考慮某一特徵項在文本中出現前後的信息熵之差。某個特徵項的信息增益值越大, 貢獻越大, 對分類也越重要。信息增益方法的不足之處在於它考慮了特徵未發生的情況。特別是在類分佈和特徵值分佈高度不平衡的情況下, 絕大多數類都是負類, 絕大多數特徵都不出現。此時的函數值由不出現的特徵決定, 因此, 信息增益的效果就會大大降低。信息增益表現出的分類性能偏低。因爲信息增益考慮了文本特徵未發生的情況,雖然特徵不出現的情況腫可能對文本類別具有貢獻,但這種貢獻往往小於考慮這種情況時對特徵分值帶來的干擾。

8x2統計量方法:

x2統計量用於度量特徵w和主題類C之間的獨立性。而表示除w以外的其他特徵,C表示除C以外的其他主題類,那麼特徵w和主題類C的關係有以下四種

情況: ,用A, B, C, D表示這四種情況的文檔頻次,總的文檔數N=A+B+C+D,擴統計量的計算公式如下:

當特徵w和主題類C之間完全獨立的時候,x2統計量爲0。x2統計量和互信息的差別在於它是歸一化的統計量,但是它對低頻特徵的區分效果也不好。X2 統計得分的計算有二次複雜度, 相似於互信息和信息增益。在 X2 統計和互信息之間主要的不同在於 X2 是規格化評價, 因而 X2 評估分值對在同類中的詞是可比的, 但是 X2 統計對於低頻詞來說是不可靠的。

利用x2 統計方法來進行特徵抽取是基於如下假設:在指定類別文本中出現頻率高的詞條與在其他類別文本中出現頻率比較高的詞條,對判定文檔是否屬於該類別都是很有幫助的.

採用x2估計特徵選擇算法的準確率在實驗中最高,其分類效果受訓練集影響較小,比較穩定。而且在對文教類和政治類存在類別交叉現象的文本進行分類時,採用x2估計的分類系統表現出了優於其它方法的分類性能。X2估計的可靠性較好,便於對程序的控制,無需因訓練集的改變而人爲的調節特徵閥值的大小。

9、文本證據權(The Weight of Evidence forText)

文本證據權衡量類的概率和給定特徵時類的條件概率之間的差別。

10、優勢率(Odds Ratio)

    優勢率只適用於二元分類的情況,其特點是隻關心文本特徵對於目標類的分值。Pos表示目標類,neg表示非目標類。

11、遺傳算法(Genetic Algorithm, GA)

文本實際上可以看作是由衆多的特徵詞條構成的多維空間,而特徵向量的選擇就是多維空間中的尋優過程,因此在文本特徵提取研究中可以使用高效尋優算法。遺傳算法(Genetic Algorithm, GA)是一種通用型的優化搜索方法,它利用結構化的隨機信息交換技術組合羣體中各個結構中最好的生存因素,複製出最佳代碼串,並使之一代一代地進化,最終獲得滿意的優化結果。在將文本特徵提取問題轉化爲文本空間的尋優過程中,首先對Web文本空間進行遺傳編碼,以文本向量構成染色體,通過選擇、交叉、變異等遺傳操作,不斷搜索問題域空間,使其不斷得到進化,逐步得到Web文本的最優特徵向量。

基於協同演化的遺傳算法不是使用固定的環境來評價個體,而是使用其他的個體來評價特定個體。個體優劣的標準不是其生存環境以外的事物,而是由在同一生存競爭環境中的其他個體來決定。協同演化的思想非常適合處理同類文本的特徵提取問題。由於同一類別文本相互之間存在一定相關性,因而各自所代表的那組個體在進化過程中存在着同類之間的相互評價和競爭。因此,每個文本的特徵向量,即該問題中的個體,在不斷的進化過程中,不僅受到其母體(文本)的評價和制約,而且還受到種族中其他同類個體的指導。所以,基於協同演化的遺傳算法不僅能反映其母體的特徵,還能反映其他同類文本的共性,這樣可以有效地解決同一主題衆多文本的集體特徵向量的提取問題,獲得反映整個文本集合某些特徵的最佳個體。

12、主成分分析法(Principal Component AnalysisPCA)

它不是通過特徵選取的方式降維的,而是通過搜索最能代表原數據的正交向量,創立一個替換的、較小的變量集來組合屬性的精華,原數據可以投影到這個較小的集合。PCA由於其處理方式的不同又分爲數據方法和矩陣方法。矩陣方法中,所有的數據通過計算方差一協方差結構在矩陣中表示出來,矩陣的實現目標是確定協方差矩陣的特徵向量,它們和原始數據的主要成分相對應。在主成分方法中,由於矩陣方法的複雜度在n很大的情況 以二次方增長,因此人們又開發使用了主要使用Hebbian學習規則的PCA神經網絡方法。

主成分分析法是特徵選取常用的方法之一,它能夠揭示更多有關變量_豐要方向的信息。但它的問題在於矩陣方法中要使用奇異值分解對角化矩陣求解方差一協方差。

13、模擬退火算法(Simulating AnnealSA)

特徵選取可以看成是一個組合優化問題,因而可以使用解決優化問題的方法來解決特徵選取的問題。模擬退火算法(Simulating Anneal,SA)就是其中一種方法。

模擬退火算法是一個很好的解決優化問題的方法,將這個方法運用到特徵選取中,理論上能夠找到全局最優解,但在初始溫度的選取和鄰域的選取t要恰當,必須要找到一個比較折中的辦法,綜合考慮解的性能和算法的速度。

14NGram算法

它的基本思想是將文本內容按字節流進行大小爲N的滑動窗口操作,形成長度爲N的字節片段序列。每個字節片段稱爲gram,對全部gram的出現頻度進行統計,並按照事先設定的閾值進行過濾,形成關鍵gram列表,即爲該文本的特徵向量空間,每一種gram則爲特徵向量維度。由於NGram算法可以避免漢語分詞的障礙,所以在中文文本處理中具有較高的實用性。中文文本處理大多采用雙字節進行分解,稱之爲bi-gram。但是bigram切分方法在處理20%左右的中文多字詞時,往往產生語義和語序方面的偏差。而對於專業研究領域,多字詞常常是文本的核心特徵,處理錯誤會導致較大的負面影響。基於NGram改進的文本特徵提取算法[2],在進行bigram切分時,不僅統計gram的出現頻度,而且還統計某個gram與其前鄰gram的情況,並將其記錄在gram關聯矩陣中。對於那些連續出現頻率大於事先設定閾值的,就將其合併成爲多字特徵詞。這樣通過統計與合併雙字特徵詞,自動產生多字特徵詞,可以較好地彌補NGram算法在處理多字詞方面的缺陷。

15、各種方法的綜合評價

上述幾種評價函數都是試圖通過概率找出特徵與主題類之間的聯繫,信息增益的定義過於複雜,因此應用較多的是交叉嫡和互信息。其中互信息的效果要好於交又嫡,這是因爲互信息是對不同的主題類分別抽取特徵詞,而交叉嫡跟特徵在全部主題類內的分佈有關,是對全部主題類來抽取特徵詞。這些方法,在英文特徵提取方面都有各自的優勢,但用於中文文本,並沒有很高的效率。主要有2 個方面的原因:1) 特徵提取的計算量太大,特徵提取效率太低,而特徵提取的效率直接影響到整個文本分類系統的效率。2) 經過特徵提取後生成的特徵向量維數太高,而且不能直接計算出特徵向量中各個特徵詞的權重。

目前使用評估函數進行特徵選取越來越普遍,特徵選取算法通過構造一個評估函數的方法,選取預定數目的最佳特徵作爲特徵子集的結果。在幾種評估方法中,每一種方法都有一個選詞標準,遵從這個標準,從文本集的所有詞彙中選取出有某個限定範圍的特徵詞集。因爲評估函數的構造不是特別複雜,適用範圍又很廣泛,所以越來越多的人們喜歡使用構造評估函數來進行特徵的選取。

這些評估函數在Web文本挖掘中被廣泛使用,特徵選擇精度普遍達到70%~80%,但也各自存在缺點和不足。例如,“信息增益”考慮了單詞未發生的情況,對判斷文本類別貢獻不大,而且引入不必要的干擾,特別是在處理類分佈和特徵值分佈高度不平衡的數據時選擇精度下降。“期望交叉熵”與“信息增益”的唯一不同就是沒有考慮單詞未發生的情況,因此不論處理哪種數據集,它的特徵選擇精度都優於“信息增益”。與“期望交叉熵”相比,“互信息”沒有考慮單詞發生的頻度,這是一個很大的缺點,造成“互信息”評估函數經常傾向於選擇稀有單詞。“文本證據權”是一種構造比較新穎的評估函數,它衡量一般類的概率和給定特徵類的條件概率之間的差別,這樣在文本處理中,就不需要計算W的所有可能值,而僅考慮W在文本中出現的情況。“優勢率”不像前面所述的其他評估函數將所有類同等對待,它只關心目標類值,所以特別適用於二元分類器,可以儘可能多地識別正類,而不關心識別出負類。

從考慮文本類間相關性的角度,可以把常用的評估函數分爲兩類,即類間不相關的和類間相關的。“文檔頻數”(DF)是典型的類間不相關評估函數, DF的排序標準是依據特徵詞在文檔中出現篇數的百分比,或稱爲篇章覆蓋率。這種類型的評估函數,爲了提高區分度,要儘量尋找篇章覆蓋率較高的特徵詞,但又要避免選擇在各類文本中都多次出現的無意義高頻詞,因此類間不相關評估函數對停用詞表的要求很高。但是,很難建立適用於多個類的停用詞表,停用詞不能選擇太多,也不能選擇太少,否則都將會影響特徵詞的選擇。同時,類間不相關評估函數還存在一個明顯的缺點,就是對於特徵詞有交叉的類別或特徵相近的類別,選擇的特徵詞會出現很多相似或相同的詞條,造成在特定類別間的區分度下降。類間相關的評估函數,例如期望交叉熵、互信息、文本證據權等,綜合考慮了詞條在已定義的所有類別中的出現情況,可以通過調整特徵詞的權重,選擇出區分度更好的特徵,在一定程度上提高了相近類別的區分度。但是,該區分度的提高僅體現在已定義的類別間,而對於尚未定義的域外類別,類間相關評估函數的選擇效果也不理想。因此,在評估函數選擇問題上,提高對域外類別文本的區分度是十分重要的研究課題。    

傳統的特徵選擇方法大多采用以上各評估函數進行特徵權重的計算,由於這些評估函數是基於統計學的,其中一個主要缺陷就是需要用一個很龐大的訓練集才能獲得幾乎所有的對分類起關鍵作用的特徵.這需要消耗大量的時間和空間資源,況且,構建這樣一個龐大的訓練集也是一項十分艱鉅的工作。然而,在現實應用中,考慮到工作效率,不會也沒有足夠的資源去構建一個龐大的訓練集,這樣的結果就是:被選中的甚至是權重比較高的特徵,可能對分類沒有什麼用處,反而會干涉到正確的分類;而真正有用的特徵卻因爲出現的頻率低而獲得 較低的權重,甚至在降低特徵空間維數的時候被刪除掉了。

基於評估函數的特徵提取方法是建立在特徵獨立的假設基礎上,但在實際中這個假設是很難成立的,因此需要考慮特徵相關條件下的文本特徵提取方法。

二、影響特徵詞權值的因素分析

1、詞頻

    文本內空中的中頻詞往往具有代表性,高頻詞區分能力較小,而低頻詞或者示出現詞也常常可以做爲關鍵特徵詞。所以詞頻是特徵提取中必須考慮的重要因素,並且在不同方法中有不同的應用公式。

2、詞性

漢語言中,能標識文本特性的往往是文本中的實詞,如名詞、動詞、形容詞等。而文本中的一些虛詞,如感嘆詞、介詞、連詞等,對於標識文本的類別特性並沒有貢獻,也就是對確定文本類別沒有意義的詞。如果把這些對文本分類沒有意思的虛詞作爲文本特徵詞,將會帶來很大噪音,從而直接降低文本分類的效率和準確率。因此,在提取文本特徵時,應首先考慮剔除這些對文本分類沒有用處的虛詞,而在實詞中,又以名詞和動詞對於文本的類別特性的表現力最強,所以可以只提取文本中的名詞和動詞作爲文本的一級特徵詞。

2、文檔頻次

    出現文檔多的特徵詞,分類區分能力較差,出現文檔少的特徵詞更能代表文本的不同主題。

2、標題

標題是作者給出的提示文章內容的短語,特別在新聞領域,新聞報道的標題一般都要求要簡練、醒目,有不少縮略語,與報道的主要內容有着重要的聯繫,對摘要內容的影響不可忽視。統計分析表明,小標題的識別有助於準確地把握文章的主題。主要體現在兩個方面:正確識別小標題可以很好地把握文章的整體框架,理清文章的結構層次;同時,小標題本身是文章中心內容的高度概括。因此,小標題的正確識別能在一定程度上提高文摘的質量。

3、位置

美國的EEBaxendale的調查結果顯示:段落的論題是段落首句的概率爲85  是段落末句的概率爲7 。而且新聞報道性文章的形式特徵決定了第一段一般是揭示文章主要內容的。因此,有必要提高處於特殊位置的句子權重,特別是報道的首旬和末句。但是這種現象又不是絕對的,所以,我們不能認爲首句和末句就一定是所要摘要的內容,因此可以考慮一個折衷的辦法,即首句和末句的權重上可通過統計數字擴大一個常數倍。首段、末段、段首、段尾、標題和副標題、子標題等處的句子往往在較大程度上概述了文章的內容。對於出現在這些位置的句子應該加大權重。

Internet上的文本信息大多是HTML結構的,對於處於Web文本結構中不同位置的單詞,其相應的表示文本內容或區別文本類別的能力是不同的,所以在單詞權值中應該體現出該詞的位置信息。

4、句法結構

句式與句子的重要性之間存在着某種聯繫,比如摘要中的句子大多是陳述句,而疑問句、感嘆句等則不具內容代表性。而通常“總之”、“綜上所述”等一些概括性語義後的句子,包含了文本的中心內容。

5、專業詞庫

通用詞庫包含了大量不會成爲特徵項的常用詞彙,爲了提高系統運行效率,系統根據挖掘目標建立專業的分詞表,這樣可以在保證特徵提取準確性的前提下,顯著提高系統的運行效率。

用戶並不在乎具體的哪一個詞出現得多,而在乎泛化的哪一類詞出現得多。真正起決定作用的是某一類詞出現的總頻率。基於這一原理,我們可以先將詞通過一些方法依主題領域劃分爲多個類,然後爲文本提取各個詞類的詞頻特徵,以完成對文本的分類。

可以通過人工確定領域內的關鍵詞集。

6、信息熵

(Entropy)在信息論中是一個非常重要的概念 ' ,它是不確定性的一種度量。信息熵方法的基本目的是找出某種符號系統的信息量和多餘度之間的關係,以便能用最小的成本和消耗來實現最高效率的數據儲存、管理和傳遞。信息熵是數學方法和語言文字學的結合,其定義爲:設x是取有限個值的隨機變量,各個取值出現的概率爲  的熵爲 其中,底數n可以爲任意正數,並規定當 時, =0。在式(3)中,對數底a決定了熵的單位,如a=2e10,熵的單位分別爲BitnatHartley。在我們的研究論文中,均取a2。熵具有最大值和最小值 ,由熵的定義公式可以看出,當每個值出現的概率相等時,即當 時 這時熵函數達到最大值 ,記爲最大熵 。其中Pt ≥0,並且 。而當 n)時,熵值最小,Entropy(X)=0。

我們將可以將信息論中的熵原理引入到特徵詞權重的計算中。

7、文檔、詞語長度

一般情況下,詞的長度越短,其語義越泛。一般來說中文中詞長較長的詞往往反映比較具體、下位的概念而短的詞常常表示相對抽象、上位的概念一般說來短詞具有較高的頻率和更多的含義是面向功能的;而長詞的頻率較低是面向內容的增加長詞的權重有利於詞彙進行分割從而更準確地反映出特徵詞在文章中的重要程度。詞語長度通常不被研究者重視。但是本文在實際應用中發現,關鍵詞通常是一些專業學術組合詞彙,長度較一般詞彙長。考慮候選詞的長度,會突出長詞的作用。長度項也可以使用對數函數來平滑詞彙間長度的劇烈差異。通常來說,長詞彙含義更明確,更能反映文本主題,適合作爲關鍵詞,因此將包含在長詞彙中低於一定過濾閾值的短詞彙進行了過濾。所謂過濾閾值,就是指進行過濾短詞彙的後處理時,短詞彙的權重和長詞彙的權重的比的最大值。如果低於過濾閾值,則過濾短詞彙,否則保留短詞彙。

根據統計,二字詞彙多是常用詞,不適合作爲關鍵詞,因此對實際得到的二字關鍵詞可以做出限制。比如,抽取個關鍵詞,本文最多允許個二字關鍵詞存在。這樣的後處理無疑會降低關鍵詞抽取的準確度和召回率,但是同候選詞長度項的運用一樣,人工評價效果將會提高。

8、詞語間關聯

9、單詞的區分能力

TF*IDF 公式的基礎上又擴展了一項單詞的類區分能力。新擴展的項用於描述單詞與各個類別之間的相關程度。

10、詞語直徑(Diameter ( t) )

詞語直徑是指詞語在文本中首次出現的位置和末次出現的位置之間的距離。詞語直徑是根據實踐提出的一種統計特徵。根據經驗,如果某個詞彙在文本開頭處提到,結尾又提到,那麼它對該文本來說,是個很重要的詞彙。不過統計結果顯示,關鍵詞的直徑分佈出現了兩極分化的趨勢,在文本中僅僅出現了次的關鍵詞佔全部關鍵詞的14.184 %。所以詞語直徑是比較粗糙的度量特徵。

11、首次出現位置(FirstLoc ( t) )

Frank Kea 算法中使用候選詞首次出現位置作爲Bayes 概率計算的一個主要特徵,他稱之爲距離(Distance)。簡單的統計可以發現,關鍵詞一般在文章中較早出現,因此出現位置靠前的候選詞應該加大權重。實驗數據表明,首次出現位置和詞語直徑兩個特徵只選擇一個使用就可以了。由於文獻數據加工問題導致中國學術期刊全文數據庫的全文數據不僅包含文章本身,還包含了作者、作者機構以及引文信息,針對這個特點,使用首次出現位置這個特徵,可以儘可能減少全文數據的附加信息造成的不良影響。

12、詞語分佈偏差(Deviation ( t) )

詞語分佈偏差所考慮的是詞語在文章中的統計分佈。在整篇文章中分佈均勻的詞語通常是重要的詞彙。詞語的分佈偏差計算公式如下其中,CurLoc ( tj ) 是詞彙在文章中第次出現的位置;MeanLoc ( t ) 是詞彙在文章中出現的平均位置。

13、特徵提取的一般步驟

一、 候選詞的確定

 (1) 分詞(詞庫的擴充)

儘管現在分詞軟件的準確率已經比較高了,但是,它對專業術語的識別率還是很好,所以,爲了進一步提高關鍵詞抽取的準確率,我們有必要在詞庫中添加了一個專業詞庫以保證分詞的質量。

(2) 停用詞的過濾

停用詞是指那些不能反映主題的功能詞。例如:“的”、“地”、“得”之類的助詞,以及像“然而”、“因此”等只能反映句子語法結構的詞語,它們不但不能反映文獻的主題,而且還會對關鍵詞的抽取造成干擾,有必要將其濾除。停用詞確定爲所有虛詞以及標點符號。

(3) 記錄候選詞在文獻中的位置

爲了獲取每個詞的位置信息,需要確定記錄位置信息的方式以及各個位置的詞在反映主題時的相對重要性。根據以往的研究結果,初步設定標題的位置權重爲5,摘要和結論部分爲3,正文爲1,同時,把標題、摘要和結論、正文分別稱爲區、區和區。確定了文章各個部分的位置權重之後,就可以用數字標籤對每個位置做一個標記。做法是:在標題的開頭標上數字5,在摘要和結論部分的段首標上數字3,在正文的段首標上數字1,這樣,當軟件逐詞掃描統計詞頻時,就可以記錄每個詞的位置信息。

二、詞語權重計算

(1) 詞語權值函數的構造(見各不同算法)

(2) 關鍵詞抽取

候選詞的權值確定以後,將權值排序,取前n個詞作爲最後的抽取結果。

四、基於語義的特徵提取方法(結合領域)

一、基於語境框架的文本特徵提取方法

越來越多的現象表明,統計並不能完全取代語義分析。不考慮句子的含義和句子間的關係機械抽取,必然導致主題的準確率低,連貫性差,產生一系列問題,如主要內容缺失、指代詞懸掛、文摘句過長等。因此,理想的自動主題提取模型應當將兩種方法相結合。應當將語義分析融入統計算法,基本的方法仍然是“統計-抽取”模型,因爲這一技術已經相對成熟並擁有豐富的研究成果。

語境框架是一個三維的語義描述,把文本內容抽象爲領域(靜態範疇)、情景(動態描述)、背景(褒貶、參照等)三個框架。在語境框架的基礎上,從語義分析入手,實現了4元組表示的領域提取算法、以領域句類爲核心的情景提取算法和以對象語義立場網絡圖爲基礎的褒貶判斷。該方法可以有效地處理語言中的褒貶傾向、同義、多義等現象,表現出較好的特徵提取能力。

二、基於本體論的文本提取方法

應用本體論(On-tology)模型可以有效地解決特定領域知識的描述問題。具體針對數字圖像領域的文本特徵提取,通過構建文本結構樹,給出特徵權值的計算公式。算法充分考慮特徵詞的位置以及相互之間關係的分析,利用特徵詞統領長度的概念和計算方法,能夠更準確地進行特徵詞權值的計算和文本特徵的提取。

三、基於知網的概念特徵提取方法

對於文本的處理,尤其是中文文本處理,字、詞、短語等特徵項是處理的主要對象。但是字、詞、短語更多體現的是文檔的詞彙信息,而不是它的語義信息,因而無法準確表達文檔的內容;大多數關於文本特徵提取的研究方法只偏重考慮特徵發生的概率和所處的位置,而缺乏語義方面的分析;向量空間模型最基本的假設是各個分量間正交,但作爲分量的詞彙間存在很大的相關性,無法滿足模型的假設。基於概念特徵的特徵提取方法是在VSM的基礎上,對文本進行部分語義分析,利用知網獲取詞彙的語義信息,將語義相同的詞彙映射到同一概念,進行概念聚類,並將概念相同的詞合併成同一詞。用聚類得到的詞作爲文檔向量的特徵項,能夠比普通詞彙更加準確地表達文檔內容,減少特徵之間的相關性和同義現象。這樣可以有效降低文檔向量的維數,減少文檔處理計算量,提高特徵提取的精度和效率。

五、可創新點

一、文本特徵提取及文本挖掘在軍事情報領域的應用研究

二、新的文本特徵表示模型

考慮使用二級向量進行文本特徵建模,關鍵詞向量能快速定位用戶的興趣領域,而擴展詞向量能準確反映用戶在該領域上的興趣偏好。結合領域知識,採用概念詞、同義詞或本體來代替具體的關鍵詞成爲特徵詞,體現語義層面的需求和分析。

三、軍事情報領域專業主題詞庫、敏感詞庫的構造

    通過人機結合的方式,建立軍事情報領導的最佳關鍵詞表,即主題詞庫,或者語義庫。將專業詞庫應用於軍事系統的分詞、特徵提取、分類、信息抽取和監控、文本挖掘等方面。

四、改進分詞算法

    利用專業詞庫改進中科院ICTCLAS分詞系統(JAVA開源版),並針對特徵提取需要,改進分詞步驟,直接在分詞過程中剔除無意義詞語,增加詞語附加信息,集成相關因素影響值的計算,加快系統速度和效率。

五、改進特徵評價函數

    將影響因素中的經驗知識通過實驗和驗算定量表示(如位置影響、高頻詞權值增加),形成可行的非性線加權公式。探索二次迭代算法,在初次文本分析基礎上,記錄文本的結構組成特徵,記錄候選特徵詞,記錄文檔集的組成特徵,然後根據加權理論調整算法,第二次計算詞的權值,最終提取高準確度的特徵詞集

發佈了22 篇原創文章 · 獲贊 13 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章