中文分詞：MMSEG

原創

2018-08-27 12:57

概述

單詞是一個基本的語義單元，不同於英文，中文句子中沒有詞的界限，因此進行中文自然語言處理，通常需要先進行分詞，分詞效果將直接影響詞性、句法樹等模塊的效果。

中文分詞算法大概分爲兩大類：一是基於字符串匹配，即掃描字符串，使用如正向／逆向最大匹配，最小切分等策略(俗稱基於詞典的) ；二是基於統計以及機器學習的分詞方式(非詞典方法) 。

mmseg本質上就是前向最大匹配+消除歧義規則+貪心，它由一個詞典，兩種匹配算法，以及四種歧義消解規則組成。該算法依賴於詞典和規則，對於未登錄詞識別能力較低，分詞結果可以滿足那些需求不是特別高的場合，但是該算法勝在簡單高效。

1.簡單匹配：將每次從起點位置能匹配到的最長詞語作爲分詞結果，連續進行下去。

2.複雜匹配：匹配出所有的“三個詞的詞組”（原文中的chunk），即從某一既定的字爲起始位置，得到所有可能的“以三個詞爲一組”的所有組合。

在簡單和複雜的匹配算法中都使用了最大匹配規則來消除分詞的歧義。剩下的三個規則沒有（而且不能）應用於簡單匹配算法。

規則1：備選詞組合的長度之和最大

規則2：備選詞組合的平均詞長最大

規則3：備選詞組合的詞長變化最小

規則4：備選詞組合中，單字詞的出現頻率統計值最高(取單字詞詞頻的自然對數，然後將得到的值相加，取總和最大的詞)

參考資料：http://www.360doc.com/content/18/0313/16/53438425_736676255.shtml

http://www.cnblogs.com/carrotH/p/3979792.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.