NLTK簡單入門函數小彙總

說明:本文代碼均來自 Natural Language Processing with Python

1. concordance(" ")
搜索某個特定詞語在文章中出現的位置,並顯示上下文

2. similar(" ")
搜索文章中與目標用法、意義相似的詞

3. common_contexts([" "," "])
這個函數和similar有點類似,但是不同的是,這個函數是用來搜索list中的所有單詞的上下文.即: word1,word2 相同的上下文

4. generate( )
用來自動生成文章,其中輸出時,標點符號被從前面的詞分裂出去

5. 統計詞彙
(1)len(text):
計算text, list等的長度
(2)set(text):去掉list, text中的重複元素
(3)sorted(set(text)):將list, text中的元素按首字母排序(先標點符號再大寫後小寫)
(4)count( ):計算某個特定詞在text,list中出現的次數(頻數)
(5)簡單函數:

#建立函數測算某個文本中所有單詞出現的平均次數
def lexical_diversity(text):
    return len(text) / len(set(text)); 
#建立函數測算某個單詞在某個文本中所佔的百分比
def percentage(count, total):
    return 100 * count / total;    


print(lexical_diversity(text3));
print(percentage(text4.count("a"), len(text4))); 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章