NLTK vs Sklearn vs Gensim

原創

2020-07-03 08:26

NLTK、SKlearn和Gensim使用場景

引用quora上的回答：

Yuval Feinstein的回答：
Generally,
- NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.)
- Sklearn is used primarily for machine learning (classification, clustering, etc.)
- Gensim is used primarily for topic modeling and document similarity.

Roland Bischof的回答：
- NLTK is specialized on gathering and classifying unstructured texts. If you need e.g. a POS-tagger, lematizer, dependeny-analyzer, etc, you’ll find them there, and sometimes nowhere else. It offers a quit broad range of tools developped mainly in academic research. But: most often it is not very well optimized - involving NLTK libraries often means to accept a huge performance loss. If you do text-gathering or -preprocessing, its fine to begin with - until you found some faster alternatives.

-SKLEARN is a much more an analyzing tool, rather than an gathering tool. Its greatly documented, well optimized, and covers a broad range of statistical methods.

-GENSIM is a very well optimized, but also highly specialized, library for doing jobs in the periphery of “WORD2DOC”. That is: it offers an easy and surpringly well working and swift AI-approach to unstructured texts. If you are interested in prodution, you might also have a look on TensorFlow, which offers a mathematically generalized, yet highly performant, model.

Although considerably overlapping, I personnaly prefer using NLTK for pre-processing, GENSIM as kind of base platform, and SKLEARN for third step processing issues.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

技術面試的經歷

有一次技術面試，經歷如下：1、那家公司是一家做手機開發應用程序的。我去到之後，先做筆試，筆試題目好像比較簡單，如下所示：（1）、下面程序調用f（111

2020-07-03 06:52:48

boost庫總結一

progress_display 在控制檯顯示程序的執行進度,但是無法把進度顯示輸出與程序的輸出分離。 #include<boost/progress.hpp> using namespace boost; pr

2020-07-02 14:27:20

內存對齊的規則和作用

今天又看了下sizeof（struct）這種東西，網上看到一篇很不錯的文章，mark一下，供初學者學習，圖文並茂，很清晰：轉自：http://www.cppblog.com/snailcong/archive/2009/03/16/76

2020-07-01 22:17:35

給電腦換源 npm 國內鏡像 cnpm

npm 是node.js 環境下的包管理器,非常強大智能. 生活這這片神奇的土地上,各種奇葩手段屢見不鮮啊. 爲什麼要換源? npm 官方站點 http://www.npmjs.org/ 並沒有被牆,但是下載第三方依賴包的速度讓人着急啊!

2020-06-26 01:18:15

如何將windows安裝在移動硬盤上

（一）工具------工欲善其事，必先利其器1.磁盤管理工具2.NT6安裝器（二）安裝步驟1.找一移動硬盤將其格式化，利用windows自帶的磁盤管理或者其他磁盤管理工具將其激活爲活動分區(某些磁盤需要在win PE環境下才能激活)。2

2020-06-21 19:35:26

歡迎加入我們的Java技術交流羣

羣名稱：Java技術交流E羣羣號：782847017 二維碼：羣名稱：Java技術交流D羣（已滿）羣號：212515971 二維碼：羣號：643041619（已滿）二維碼：說明：加入時請說明是CSDN的

2020-06-21 18:06:57

iOS開發筆記 - Swift快速入門(視頻分享)

連續錄製了3天Swift的課堂視頻，希望幫助有Objective-C使用經驗和iOS開發經驗的小夥伴迅速瞭解這門語言，由於Swift這個語言本身還在演進中，我自己也是一邊學習一邊把心得體會跟大家分享，希望能夠給大家帶來一些幫助，下

2020-06-21 18:06:46

Python開發系列課程(0) - 公告

從2017開始有一個名叫Python的編程語言開始受到各界的重視並逐漸成爲在各大榜單霸榜的編程語言。截止到2020年2月，在TIOBE Index排行榜、IEEE最受歡迎語言排行榜和GitHub最受歡迎語言排行榜上，Python分

2020-06-21 18:06:46

c/c++輸入流刷新，解決不合法輸入導致的死循環問題

首先給出代碼，這段代碼的原意是，從鍵盤輸入a，然後判斷a是否讀取成功，如果沒有就打印信息，並且再次讓用戶輸入，直到用戶輸入一個合法輸入才停止。 c++代碼 #include <iostream> using namespace s

2020-06-21 12:22:47

C++ 項目使用 CMake 和 Google Test（傻瓜式教程）

本指南將向您展示如何通過Google的測試框架使用CMake和單元測試來設置新的C ++項目。通過此設置，您可以立即開始使用C ++進行測試驅動的開發。弄清楚如何將gtest添加到現有項目並開始在舊的（現有）代碼庫上進行TDD也很簡單

2020-06-21 12:22:47

JAVA學習筆記（初級）一

虛擬機 JVM爲下列各項做出了定義： - 指令集 - 寄存器 - 類文件格式 - 棧 - 垃圾收集堆 - 存儲區 JVM的功能： - 通過ClassLoader尋找和裝載class文件； - 解釋字

2020-06-20 10:47:57

C++筆記：左值和右值

這兩個概念看似簡單，其實大部分人很多時候都沒有細分他們的差別。最近看到primer書裏討論rvalue reference（右值的引用）時覺得自己應該再回去看看。而事實上左值和右值本身也確實很簡單。這是微軟在VS2017中對左

2020-06-20 10:47:56

Java學習筆記初級（二）-面對對象

什麼是類：在Java中，包是類，接口或其他包的集合。包主要用來將類組織成爲組，從而對類進行管理。包能幹什麼：包允許使用者將包含類代碼的文件組織起來，易於查找和使用適當的類。包不只是包含類和接口，還能夠包含其他包，形成

2020-06-20 10:47:45

重拾C++（算法版）

文章目錄0 前言1 vector—基礎結構1.1 初始化1.2 預設空間1.3 erase用法1.4 求最大值2 unordered_set/set—迅速找到某個值2.1 初始化2.2 find3 unordered_map—字典

2020-06-19 03:55:09

pycharm操作筆記

1. pycharm編輯器字體習慣設置

2020-06-19 03:55:09

24小時熱門文章

最新文章

最新評論文章