結巴分詞基本流程

1.加載自定義詞典
jieba.load_userdict(file_name)
2.調整詞典:
使用add_word(word, freq = None, tag = None)和del_word(word)可在程序中動態修改詞典。
使用suggest_freq(segment, tune = True)可調節單個詞語的詞頻,使其能(或不能)被分出來
3.分詞
cut(),lcut(),cut_for_search(),lcut_for_search()
4.關鍵字提取(jieba.analyse)
方式1:基於tf-idf算法的關鍵詞提取
一、設置逆向文件頻率(IDF)文本語料庫
jieba.analyse.set_idf_path(“path1”)
二、設置所使用的停用詞文本語料庫
jieba.analyse.set_stop_words(file_path)
三、關鍵字提取
tags = jieba.analyse.extract_tags(content, topK=10)
for tag in tags:
print(“tag:%s\t\t weight:%f” % (tag[0], tag[1]))
方式2、基於TextRank算法的關鍵詞抽取
jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = (‘ns’, ‘n’, ‘vn’, ‘v’))直接使用,接口相同,注意默認過濾詞性
jieba.analyse.TextRank()新建自定義TextRank示例
5.詞性標註
jieba.posseg.POSTokenizer(tokenizer = None)新建自定義分詞器,
tokenizer參數可指定內部使用的jieba.Tokenizer。
import jieba.posseg as pseg
words = pseg.cut(“我愛北京天安門”)
for word, flag in words:
print("%s %s" % (word, flag))
6.Tokenize:返回詞語在原文的起止位置
import jieba
默認模式
result = jieba.tokenize(“永和服裝飾品有限公司”)
搜索模式
result = jieba.tokenize(“永和服裝飾品有限公司”,mode=“search”)
for tk in result:
print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2]))

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章