python | 高效統計語言模型kenlm：新詞發現、分詞、智能糾錯

原創

2020-06-22 14:17

之前看到蘇神【重新寫了之前的新詞發現算法：更快更好的新詞發現】中提到了kenlm，之前也自己玩過，沒在意，現在遇到一些大規模的文本問題，模塊確實好用，前幾天還遇到幾個差點“棄療”的坑，解決了之後，就想，不把kenlm搞明白，對不起我浪費的兩天。。

kenlm的優點（關於kenlm工具訓練統計語言模型）：
訓練語言模型用的是傳統的“統計+平滑”的方法，使用kenlm這個工具來訓練。它快速，節省內存，最重要的是，允許在開源許可下使用多核處理器。
kenlm是一個C++編寫的語言模型工具，具有速度快、佔用內存小的特點，也提供了Python接口。

額外需要加載的庫：

kenlm
pypinyin

可裝可不裝的庫：pycorrector
筆者的代碼可見github，只是粗略整理，歡迎大家一起改:

mattzheng/py-kenlm-model

文章目錄

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python | 關鍵詞快速匹配檢索小工具 pyahocorasick / ahocorapy

AC自動機是多模式匹配的一個經典數據結構，原理是和KMP一樣的構造fail指針，不過AC自動機是在Trie樹上構造的，但原理是一樣的。官方github： https://github.com/WojciechMula/pyahoc

2020-06-22 13:11:15

平民級NER︱pycrfsuite的介紹與應用

2020-02-21 23:53:44

網絡表情NLP（一）︱顏文字表情實體識別、屬性檢測、新顏發現

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

網絡表情NLP（二）︱特殊表情包+emoji識別

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

極簡使用︱Glove-python詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函數與功能理解）官方glove教程比

2020-06-06 23:06:36

極簡使用︱Gensim-FastText 詞向量訓練以及OOV（out-of-word）問題有效解決

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練wo

2020-06-06 23:06:36

NVIDIA的python-GPU算法生態︱ RAPIDS 0.10

2020-02-26 12:07:31

AI智能內容創作的幾個方面

2020-02-21 23:53:44

微信對話開放平臺智能對話模塊的幾個亮點

2020-02-21 23:53:44

智能視頻生成：阿里系的諸多成果

2020-02-21 23:53:44

電商智能寫作：阿里媽媽創意中心智能文案引擎

2020-02-21 23:53:44

python | 關鍵詞快速匹配檢索小工具 pyahocorasick / ahocorapy

AC自動機是多模式匹配的一個經典數據結構，原理是和KMP一樣的構造fail指針，不過AC自動機是在Trie樹上構造的，但原理是一樣的。官方github： https://github.com/WojciechMula/pyahoc

2020-06-22 13:11:15

網絡表情NLP（一）︱顏文字表情實體識別、屬性檢測、新顏發現

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

網絡表情NLP（二）︱特殊表情包+emoji識別

這是一篇一本正經無聊的小研究項目。。互聯網現在面臨很多新網絡文體，比如彈幕文體、小紅書的種草文體、網名等，這些超短文本中本身字符特徵就比較少，但是表情包占比卻很多，這是重要信息呀。之前參加比賽，一般都是當作停用詞直接刪掉，在這

2020-06-06 23:06:36

極簡使用︱Glove-python詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函數與功能理解）官方glove教程比

2020-06-06 23:06:36

24小時熱門文章

最新文章

最新評論文章