python | 高效統計語言模型kenlm:新詞發現、分詞、智能糾錯

之前看到蘇神【重新寫了之前的新詞發現算法:更快更好的新詞發現】中提到了kenlm,之前也自己玩過,沒在意,現在遇到一些大規模的文本問題,模塊確實好用,前幾天還遇到幾個差點“棄療”的坑,解決了之後,就想,不把kenlm搞明白,對不起我浪費的兩天。。

kenlm的優點(關於kenlm工具訓練統計語言模型):
訓練語言模型用的是傳統的“統計+平滑”的方法,使用kenlm這個工具來訓練。它快速,節省內存,最重要的是,允許在開源許可下使用多核處理器。
kenlm是一個C++編寫的語言模型工具,具有速度快、佔用內存小的特點,也提供了Python接口。

額外需要加載的庫:

kenlm
pypinyin

可裝可不裝的庫:pycorrector
筆者的代碼可見github,只是粗略整理,歡迎大家一起改:

mattzheng/py-kenlm-model


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章