中文分詞算法

 

中文分詞算法現在一般分爲三類:基於字符串匹配,基於理解,基於統計的分詞。
基於字符串匹配分詞:機械分詞算法。將待分的字符串與一個充分大的機器詞典中的詞條進行匹配。分爲正向匹配和逆向匹配;最大長度匹配和最小長度匹配;單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。。。實際應用中,將機械分詞作爲初分手段,利用語言信息提高切分準確率。優先識別具有明顯特徵的詞,以這些詞爲斷點,將原字符串分爲較小字符串再機械匹配,以減少匹配錯誤率;或將分詞與詞類標註結合。
基於理解分詞:分詞同時進行句法語義分析等模擬人對句子的理解,包括分詞子系統,句法語義系統,總控部分。總控部分協調下,分詞字系統可以獲得有關詞,句子等的句法和語義信息對分詞歧義進行判斷。需要大量的語言知識信息。
基於統計:相鄰的字同時出現的次數越多,越有可能構成一個詞語,對語料中的字組頻度進行統計,不需要切詞字典,但錯誤率很高。可以考慮:使用基本詞典進行關鍵詞分詞,使用統計方法識別新詞組,兩者結合。
語義理解中文分詞:解決一詞多義問題,爲用戶建立個性化數據庫。
中文分詞存在問題:計算機與人對歧義的定義無法統一;字典中未收錄的詞識別率低。
分詞系統判斷標準(待解決問題):歧義識別,新詞(未登錄詞)識別。。。

分詞模型:
N元模型:N=1計算一個分句中所有詞語頻率的乘積以得到句子的相對頻率;
         N=2根據一轉移矩陣,給出每一詞語後面出現另一詞語的概率--一階馬爾可夫鏈。(N=2,3,3...對應N階馬爾可夫鏈)。
         最大熵隱馬爾可夫模型--基於此模型,再根據字符的一些特徵參數來確定字符是單字詞還是詞語的左邊界右邊界或中間的詞幹,從而把分詞轉化爲漢字標記過程。
         (中科院作品和有向圖結合)多層隱馬爾可夫模型---擴展後,可以將模型應用於原則切分,未登錄詞識別,隱馬分詞等,低層模型可以幫助高層模型進行排歧。
         採用的模型並不是影響分詞系統好壞的主要原因,需要將模型的使用,規則和未登錄詞識別三者有機結合。
匹配法分詞:
         綜合應用前向-後向最大匹配和最小匹配,據詞性標註進行消歧,建立規則處理詞表無法解決問題。
         先用匹配法分詞,發現歧義,向前看兩詞語,對此三個詞運用啓發式的消歧規則,據規則(最長匹配,詞語長度,語素,概率等規則)消除當前詞的最佳切分方法。
基於決策樹和有向圖:
         (此係統試驗結果較好,微軟研究院ACL_SIGHAN競賽作品)將每一詞語包括詞表詞和未登錄詞都作爲節點加入到決策樹中,用分析器或動態規劃法對構造好的決策樹進行分析以找到較正確的切分方法。每一非葉子節點都有一參數與之對應決定它的子節點是作爲一個詞還是幾個詞輸出。優點在於:詞語識別同時它所使用的規則也作爲歷史樹保存下來。
         (中科院ACL_SIGHAN作品)將詞表詞和未登錄詞看做有向圖中的一個結點,並給各邊和各點賦予一個權值,分詞過程被轉化爲基於隱馬可夫模型求有向圖最短路徑的問題。
google分詞技術由http://www.basistech.com/提供,百度分詞自行開發。
中搜分詞技術由http://www.hylanda.com(海量科技)提供。
已有中文分詞系統:
          CDWS(the modern written chinese distinguishing word system)
          CASS---北航
          SEG,SEGTAG:清華大學
          復旦分詞系統--復旦大學;
          哈工大分詞系統---運用統計方法的純分詞系統,試圖將串頻統計和詞匹配結合;
          MM系統--杭州大學(改進MM算法);
          北大分詞系統---北大計算語言研究院
          ICTCLAS---中科院(目前較好系統)
          MicroSoft Research漢語句法分析器中的自動分詞系統;

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章