NLTK簡單入門函數小彙總

原創

2020-04-23 19:49

說明：本文代碼均來自 Natural Language Processing with Python

1. concordance(" ")
搜索某個特定詞語在文章中出現的位置，並顯示上下文

2. similar(" ")
搜索文章中與目標用法、意義相似的詞

3. common_contexts([" "," "])
這個函數和similar有點類似，但是不同的是,這個函數是用來搜索list中的所有單詞的上下文.即: word1,word2 相同的上下文

4. generate( )
用來自動生成文章，其中輸出時，標點符號被從前面的詞分裂出去

5. 統計詞彙
（1）len(text)：計算text， list等的長度
（2）set(text)：去掉list， text中的重複元素
（3）sorted(set(text))：將list， text中的元素按首字母排序（先標點符號再大寫後小寫）
（4）count( )：計算某個特定詞在text，list中出現的次數（頻數）
（5）簡單函數：

#建立函數測算某個文本中所有單詞出現的平均次數
def lexical_diversity(text):
    return len(text) / len(set(text)); 
#建立函數測算某個單詞在某個文本中所佔的百分比
def percentage(count, total):
    return 100 * count / total;    


print(lexical_diversity(text3));
print(percentage(text4.count("a"), len(text4)));

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

（三）Python3 NLTK（Natural Language Toolkit）安裝和下載的常見問題

NLTK（Python自然語言工具包）用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有幾乎所有NLP任務的工具。 1.安裝nltk pip install nltk （不要像一開始我一樣傻傻的以爲pip完就結

2020-06-26 00:25:49

NLTK train_unsupervised KeyError

2020-06-01 07:15:16

fdist.keys( )遇到的問題

2020-04-25 13:58:35

python nltk 基本操作

2020-02-26 05:28:23

NLTK中使用Stanford parser

2020-02-26 05:28:23

《Python自然語言處理》第一章

2020-02-21 04:22:16

NLTK-chapter1-Language Processing and Python

2020-02-21 01:56:02

關於遇到NLTK下載路徑的一個小問題。

2019-08-24 14:38:04

python nltk學習——分類和標註詞彙

nltk學習分類和標註詞彙Categorizing and Tagging Words（分類和標註詞彙）1 Using a Tagger(使用標註器)2 Tagged Corpora（已經被標記的語料庫）3 Reading Tag

2020-07-07 03:09:40

NLTK使用總結

nltk.tokenize.punkt() 這個class能將text拆分成句子，但是會保留標點符號，比如括號之類的 import nltk.data text = ''' ... Punkt knows that the

小强的呼呼呼

2020-06-30 09:49:22

（三）Python3 NLTK（Natural Language Toolkit）安裝和下載的常見問題

NLTK（Python自然語言工具包）用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有幾乎所有NLP任務的工具。 1.安裝nltk pip install nltk （不要像一開始我一樣傻傻的以爲pip完就結

2020-06-26 00:25:49

安裝nltk遇到的坑：下載失敗+安裝成功但導入不了

在jupyter notebook上運行代碼時： import nltk paragraph = "i am a good boy ! are you ok? hahaha i am fine" words_list = nltk.wo

2020-06-25 09:26:17

nltk之使用正則表達式檢測詞組搭配

注：本文中用箭頭表示正則表達式如：《patt》在Python中使用正則表達式，需要使用 import re 導入 re函數庫 ·使用基本的元字符使用正則表達式《ed$》查找以ed結尾的詞彙。使用函數 re.search(p,s) 檢

小青年阿坚

2020-06-16 11:01:22

example for document classify use nltk and python

1. get the movie comment and classify it into pos or neg code like below: 點擊(此處)摺疊或打開 >>> import nltki>>> import

2020-06-16 02:33:31

NLTK train_unsupervised KeyError

2020-06-01 07:15:16

24小時熱門文章

最新文章

最新評論文章