1. nltk.word_tokenize ( text ) : 直接的分詞,比如:“ isn't ” 被分割爲 " is " 和 “ n't ”
2. WordPunctTokenizer ( ) : 單詞標點分割,比如:“ isn't ”被分割爲" isn ", " ' " 和 " t "
注意WordPunctTokenizer ( )的用法。
3. TreebankWordTokenizer ( 賓夕法尼亞州立大學 Treebank 單詞分割器):比如:" isn't "被分割爲" is " 和 " n't "
4. WhitespaceTokenizer() : 空格符號分割,就是split(' ')最簡單的一個整體,沒有被分割
5. PunktWordTokenizer() :
這個有問題,emmmm,還沒解決,先留個坑吧