之前看到蘇神【重新寫了之前的新詞發現算法:更快更好的新詞發現】中提到了kenlm,之前也自己玩過,沒在意,現在遇到一些大規模的文本問題,模塊確實好用,前幾天還遇到幾個差點“棄療”的坑,解決了之後,就想,不把kenlm搞明白,對不起我浪費的兩天。。
kenlm的優點(關於kenlm工具訓練統計語言模型):
訓練語言模型用的是傳統的“統計+平滑”的方法,使用kenlm這個工具來訓練。它快速,節省內存,最重要的是,允許在開源許可下使用多核處理器。
kenlm是一個C++編寫的語言模型工具,具有速度快、佔用內存小的特點,也提供了Python接口。
額外需要加載的庫:
kenlm
pypinyin
可裝可不裝的庫:pycorrector
筆者的代碼可見github,只是粗略整理,歡迎大家一起改: