example for document classify use nltk and python

原創

2020-06-16 02:33

1. get the movie comment and classify it into pos or neg
code like below:

點擊(此處)摺疊或打開

>>> import nltki
>>> import random
>>> from nltk.corpus import movie_reviews
>>> documents = [(list(movie_reviews.words(fileid)), category)
... for category in movie_reviews.categories()
... for fileid in movie_reviews.fileids(category)]
>>> random.shuffle(documents)

2.get the features of the documents, that if the word in the selected document
code like below:

點擊(此處)摺疊或打開

>>> all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
>>> word_features = all_words.keys()[:2000]
>>> def document_features(document):
... document_words = set(document)
... features = {}
... for word in word_features:
... features['contains(%s)' % word] = (word in document_words)
... return features

3.train and test the classifier for the document
code like below:

點擊(此處)摺疊或打開

>>> featuresets = [(document_features(d), c) for (d,c) in documents]
>>> train_set, test_set = featuresets[100:], featuresets[:100]
>>> classifier = nltk.NaiveBayesClassifier.train(train_set)
>>> print nltk.classify.accuracy(classifier, test_set)
0.73

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

Linux中的tty和pts

一、幾個基本概念 tty（Teletypewriter）來源於“電傳打印機”，Linux系統中則是終端設備的統稱，同時也代指操作系統中支持終端設備的tty子系統。 console（控制檯）

2024-05-18 00:45:13

個人開發者如何入門 Java 異步編程

標題：《從零開始：一份詳盡的Linux安裝教程》引言：在數字化的世界裏，Linux操作系統以其開源的特性、高度的安全性和穩定性，成爲了服務器和個人電腦的熱門選擇。無論是開發者、系統管理員還是技術愛好者，掌握Linux的安裝與配置都是一項

2024-05-17 01:49:09

在Linux操作系統的安裝過程中，如何選擇合適的發行版

【關鍵詞】{{linux安裝}} 【提問】{{question}} 在Linux操作系統的安裝過程中，如何選擇合適的發行版，並確保安裝過程順利進行？此外，對於不同硬件配置的用戶，有哪些特定的安裝注意事項和優化策略？【文章】{{Linux操

2024-05-17 01:49:06

流水線 YAML 高級用法來了！大幅降低重複代碼、靈活編排多任務

作者：木煙在 YAML 化配置流水線時，你是否會遇到以下問題？單流水線中批量執行類似任務場景時，YAML 中需要定義多個類似邏輯的 Job，Job 越多，流水線 YAML 配置的越長，YAML 中的重複代碼越多，代碼複用性低，可讀性差

2024-05-16 21:13:44

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring 按條件裝配使用方法

條件註冊 Spring 4.0 引入條件註冊機制，暴露給用戶的API是@Conditional和Condition接口，把@Conditional聲明在一個 @Component類上，並接受一組條件（Condition實現），容器初始化期間

2024-05-15 11:50:12

界面組件DevExpress Reporting v24.1預覽版 - 擁有原生Angular報表查看器

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。下一個主要

2024-05-14 12:21:34

Shell/Python中的用戶名獲取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

記一次有點抽象的滲透經歷

0x01 獲取webshell 在各種信息蒐集中，發現某個ip的端口掛着一個比較老的服務。首先看到了員工工號和手機號的雙重驗證，也不知道賬號是什麼結構組成的，基本上放棄字典爆破這一條路。於是乎打開之前用燈塔的掃描結果，看看文件泄露是否

2024-05-17 23:16:30

地理數據可視化的神奇組合：Python和Geopandas

本文分享自華爲雲社區《Python與Geopandas：地理數據可視化與分析指南》，作者：檸檬味擁抱。地理數據可視化在許多領域都是至關重要的，無論是研究地理空間分佈、城市規劃、環境保護還是商業決策。Python語言以其強大的數據處理和可視

2024-05-15 10:59:41

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

Python函數與模塊的精髓與高級特性

本文分享自華爲雲社區《Python函數與模塊的精髓與高級特性》，作者：檸檬味擁抱。 Python 是一種功能強大的編程語言，擁有豐富的函數和模塊，使得開發者能夠輕鬆地構建複雜的應用程序。本文將介紹 Python 中函數和模塊的基本使用方法，

2024-05-14 11:00:07

做開發我是認真的！要麼不做，要麼全力以赴 | 每日趣聞

戳一戳小程序查看更多！往期趣聞 ☞你拖後腿了嗎？11 月份程序員工資出爐~ | 每日趣聞 ☞計算機專業會修電腦實錘！| 每日趣聞 ☞IT 行業這麼廣，你的職業規劃是什麼？| 每日趣聞 ☞奔潰啦~希望 Python 可

2024-05-14 01:47:34

24小時熱門文章

最新文章

最新評論文章