jieba庫

jieba庫:
利用一箇中文詞庫,確定中文字符之間的關聯概率
中文字符間概率大的組成詞組,形成分詞結果
jieba庫分詞的三種模式:精確模式、全模式、搜索引擎模式
精確模式:把文本精確的切分開,不存在冗餘單詞
全模式:把文本中所有可能的詞語都掃描出來,有冗餘
搜索引擎模式:在精確模式的基礎上,對長詞再次切分
常用函數:
jieba.lcut(s):精確模式,返回一個列表類型的分詞結果
jieba.lcut(s,cut_all=True):全模式,返回一個列表類型的分詞結果,存在冗餘
jieba.lcut_for_search(s):搜索引擎模式,返回一個列表類型的分詞結果,存在冗餘
jieba.add_word(w):向分詞詞典增加新詞w
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章