jieba庫的基本使用

分詞

import jieba

# 朱自清散文節選
text = '人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到哪裏,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

seg_text = jieba.cut(text, cut_all=False)

print('/'.join(seg_text))

人生/就是/一種/承受/,/一種/壓力/,/讓/我們/在/負重/中/前行/,/在/逼迫/中/奮進/。/無論/走/到/哪裏/,/我們/都/要/學會/支撐/自己/,/沒有/人/陪你走/一輩子/,/所以/你/要/適應/孤獨/,/沒有/人會/幫/你/一輩子/,/所以/你/要/奮鬥/一生/。

import jieba

# 《人民的民義》節選
text = '屋內,祁同偉一手扶着架在窗臺上的狙擊步槍,一手握着制式手槍,久久屏住呼吸。小院落裏空空蕩蕩的,沒有任何隱蔽物。侯亮平的身影出現了,一顆腦袋晃動着顯現在狙擊步槍的瞄準儀裏。'

# 添加新詞之前
seg_text_ = jieba.cut(text, cut_all=False)

print('/'.join(seg_text_))

# 添加新詞之後
jieba.suggest_freq('祁同偉', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('瞄準儀', True)

seg_text = jieba.cut(text, cut_all=False)

print('/'.join(seg_text))

屋內/,/祁同偉/一/手扶/着/架/在/窗臺上/的/狙擊步槍/,/一/手握着/制式/手槍/,/久久/屏住/呼吸/。/小/院落/裏/空空蕩蕩/的/,/沒有/任何/隱蔽物/。/侯亮/平/的/身影/出現/了/,/一顆/腦袋/晃動/着/顯現/在/狙擊步槍/的/瞄準/儀裏/。

屋內/,/祁同偉/一/手扶/着/架/在/窗臺上/的/狙擊步槍/,/一/手握着/制式/手槍/,/久久/屏住/呼吸/。/小/院落/裏/空空蕩蕩/的/,/沒有/任何/隱蔽物/。/侯亮平/的/身影/出現/了/,/一顆/腦袋/晃動/着/顯現/在/狙擊步槍/的/瞄準儀/裏/。

詞性標註

import jieba.posseg as pseg

# 朱自清散文節選
text = '人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到哪裏,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

result = pseg.cut(text)

words = []

for w in result:
    words.append((w.word, w.flag)) # 單詞和詞性
print(words)

[(‘人生’, ‘n’), (‘就是’, ‘d’), (‘一種’, ‘m’), (‘承受’, ‘v’), (’,’, ‘x’), (‘一種’, ‘m’), (‘壓力’, ‘n’), (’,’, ‘x’), (‘讓’, ‘v’), (‘我們’, ‘r’), (‘在’, ‘p’), (‘負重’, ‘v’), (‘中’, ‘f’), (‘前行’, ‘v’), (’,’, ‘x’), (‘在’, ‘p’), (‘逼迫’, ‘v’), (‘中’, ‘f’), (‘奮進’, ‘v’), (’。’, ‘x’), (‘無論’, ‘c’), (‘走’, ‘v’), (‘到’, ‘v’), (‘哪裏’, ‘r’), (’,’, ‘x’), (‘我們’, ‘r’), (‘都’, ‘d’), (‘要’, ‘v’), (‘學會’, ‘n’), (‘支撐’, ‘v’), (‘自己’, ‘r’), (’,’, ‘x’), (‘沒有’, ‘v’), (‘人’, ‘n’), (‘陪你走’, ‘l’), (‘一輩子’, ‘m’), (’,’, ‘x’), (‘所以’, ‘c’), (‘你’, ‘r’), (‘要’, ‘v’), (‘適應’, ‘v’), (‘孤獨’, ‘a’), (’,’, ‘x’), (‘沒有’, ‘v’), (‘人會’, ‘n’), (‘幫’, ‘v’), (‘你’, ‘r’), (‘一輩子’, ‘m’), (’,’, ‘x’), (‘所以’, ‘c’), (‘你’, ‘r’), (‘要’, ‘v’), (‘奮鬥’, ‘v’), (‘一生’, ‘m’), (’。’, ‘x’)]

關鍵字提取

import jieba.analyse

# 朱自清散文節選
text = '人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到哪裏,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

keywords = jieba.analyse.extract_tags(text, topK=5) # 返回TFIDF權重最大的topK個關鍵詞

print(keywords)

[‘一輩子’, ‘陪你走’, ‘人會’, ‘奮進’, ‘負重’]

返回單詞在原文的起始位置

import jieba

# 朱自清散文節選
text = '人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到哪裏,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

result = jieba.tokenize(text, mode='search') # 搜索模式
words = []
for w in result:
    words.append((w[0], w[1], w[2])) # 單詞/起點/終點
    
print(words)

[(‘人生’, 0, 2), (‘就是’, 2, 4), (‘一種’, 4, 6), (‘承受’, 6, 8), (’,’, 8, 9), (‘一種’, 9, 11), (‘壓力’, 11, 13), (’,’, 13, 14), (‘讓’, 14, 15), (‘我們’, 15, 17), (‘在’, 17, 18), (‘負重’, 18, 20), (‘中’, 20, 21), (‘前行’, 21, 23), (’,’, 23, 24), (‘在’, 24, 25), (‘逼迫’, 25, 27), (‘中’, 27, 28), (‘奮進’, 28, 30), (’。’, 30, 31), (‘無論’, 31, 33), (‘走’, 33, 34), (‘到’, 34, 35), (‘哪裏’, 35, 37), (’,’, 37, 38), (‘我們’, 38, 40), (‘都’, 40, 41), (‘要’, 41, 42), (‘學會’, 42, 44), (‘支撐’, 44, 46), (‘自己’, 46, 48), (’,’, 48, 49), (‘沒有’, 49, 51), (‘人’, 51, 52), (‘陪你走’, 52, 55), (‘一輩’, 55, 57), (‘輩子’, 56, 58), (‘一輩子’, 55, 58), (’,’, 58, 59), (‘所以’, 59, 61), (‘你’, 61, 62), (‘要’, 62, 63), (‘適應’, 63, 65), (‘孤獨’, 65, 67), (’,’, 67, 68), (‘沒有’, 68, 70), (‘人會’, 70, 72), (‘幫’, 72, 73), (‘你’, 73, 74), (‘一輩’, 74, 76), (‘輩子’, 75, 77), (‘一輩子’, 74, 77), (’,’, 77, 78), (‘所以’, 78, 80), (‘你’, 80, 81), (‘要’, 81, 82), (‘奮鬥’, 82, 84), (‘一生’, 84, 86), (’。’, 86, 87)]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章