結巴分詞基本流程

原創

2018-09-20 03:27

1.加載自定義詞典
jieba.load_userdict(file_name)
2.調整詞典：
使用add_word(word, freq = None, tag = None)和del_word(word)可在程序中動態修改詞典。
使用suggest_freq(segment, tune = True)可調節單個詞語的詞頻，使其能（或不能）被分出來
3.分詞
cut(),lcut(),cut_for_search(),lcut_for_search()
4.關鍵字提取（jieba.analyse）
方式1：基於tf-idf算法的關鍵詞提取
一、設置逆向文件頻率（IDF）文本語料庫
jieba.analyse.set_idf_path(“path1”)
二、設置所使用的停用詞文本語料庫
jieba.analyse.set_stop_words(file_path)
三、關鍵字提取
tags = jieba.analyse.extract_tags(content, topK=10)
for tag in tags:
print(“tag:%s\t\t weight:%f” % (tag[0], tag[1]))
方式2、基於TextRank算法的關鍵詞抽取
jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = (‘ns’, ‘n’, ‘vn’, ‘v’))直接使用，接口相同，注意默認過濾詞性
jieba.analyse.TextRank()新建自定義TextRank示例
5.詞性標註
jieba.posseg.POSTokenizer(tokenizer = None)新建自定義分詞器，
tokenizer參數可指定內部使用的jieba.Tokenizer。
import jieba.posseg as pseg
words = pseg.cut(“我愛北京天安門”)
for word, flag in words:
print("%s %s" % (word, flag))
6.Tokenize：返回詞語在原文的起止位置
import jieba
默認模式
result = jieba.tokenize(“永和服裝飾品有限公司”)
搜索模式
result = jieba.tokenize(“永和服裝飾品有限公司”,mode=“search”)
for tk in result:
print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2]))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

結巴分詞基本流程

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

中文編碼問題：raw_input輸入、文件讀取、變量比較等str、unicode、utf-8轉換問題

Pandas模塊1

百度賬號登陸

python編寫PSO算法

selenium抓取四六級成績

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結