from ： http://www.cnblogs.com/pinard/p/6677078.html

　　　　在做文本挖掘的時候，首先要做的預處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞，但是也有時候需要把多個單詞做爲一個分詞，比如一些名詞如“New York”，需要做爲一個詞看待。而中文由於沒有空格，分詞就是一個需要專門去解決的問題了。無論是英文還是中文，分詞的原理都是類似的，本文就對文本挖掘時的分詞原理做一個總結。

1. 分詞的基本原理

　　　　現代分詞都是基於統計的分詞，而統計的樣本內容來自於一些標準的語料庫。假如有一個句子：“小明來到荔灣區”，我們期望語料庫統計後分詞的結果是："小明/來到/荔灣/區"，而不是“小明/來到/荔/灣區”。那麼如何做到這一點呢？

　　　　從統計的角度，我們期望"小明/來到/荔灣/區"這個分詞後句子出現的概率要比“小明/來到/荔/灣區”大。如果用數學的語言來說說，如果有一個句子,它有m種分詞選項如下：

　　　　其中下標代表第種分詞的詞個數。如果我們從中選擇了最優的第種分詞方法，那麼這種分詞方法對應的統計分佈概率應該最大，即：

　　　　但是我們的概率分佈並不好求出來，因爲它涉及到個分詞的聯合分佈。在NLP中，爲了簡化計算，我們通常使用馬爾科夫假設，即每一個分詞出現的概率僅僅和前一個分詞有關，即：

　　　　在前面我們講MCMC採樣時，也用到了相同的假設來簡化模型複雜度。使用了馬爾科夫假設，則我們的聯合分佈就好求了，即：

　　　　而通過我們的標準語料庫，我們可以近似的計算出所有的分詞之間的二元條件概率，比如任意兩個詞，它們的條件概率分佈可以近似的表示爲：

　　　　其中表示在語料庫中相鄰一起出現的次數，而其中分別表示在語料庫中出現的統計次數。

　　　　利用語料庫建立的統計概率，對於一個新的句子，我們就可以通過計算各種分詞方法對應的聯合分佈概率，找到最大概率對應的分詞方法，即爲最優分詞。

2. N元模型

　　　　當然，你會說，只依賴於前一個詞太武斷了，我們能不能依賴於前兩個詞呢？即：

， ，

　　　　這樣也是可以的，只不過這樣聯合分佈的計算量就大大增加了。我們一般稱只依賴於前一個詞的模型爲二元模型(Bi-Gram model)，而依賴於前兩個詞的模型爲三元模型。以此類推，我們可以建立四元模型，五元模型,...一直到通用的元模型。越往後，概率分佈的計算複雜度越高。當然算法的原理是類似的。

　　　　在實際應用中，一般都較小，一般都小於4，主要原因是N元模型概率分佈的空間複雜度爲，其中爲語料庫大小，而爲模型的元數，當增大時，複雜度呈指數級的增長。

　　　　元模型的分詞方法雖然很好，但是要在實際中應用也有很多問題，首先，某些生僻詞，或者相鄰分詞聯合分佈在語料庫中沒有，概率爲0。這種情況我們一般會使用拉普拉斯平滑，即給它一個較小的概率值，這個方法在樸素貝葉斯算法原理小結也有講到。第二個問題是如果句子長，分詞有很多情況，計算量也非常大，這時我們可以用下一節維特比算法來優化算法時間複雜度。