自然語言處理學習 nltk----分詞

 

1. nltk.word_tokenize ( text ) : 直接的分詞,比如:“ isn't ” 被分割爲 " is " 和 “ n't ”

 2. WordPunctTokenizer ( ) : 單詞標點分割,比如:“ isn't ”被分割爲" isn ", " ' " 和 " t "

     注意WordPunctTokenizer ( )的用法。

 3. TreebankWordTokenizer ( 賓夕法尼亞州立大學 Treebank 單詞分割器):比如:" isn't "被分割爲" is " 和 " n't "

4. WhitespaceTokenizer() : 空格符號分割,就是split(' ')最簡單的一個整體,沒有被分割

 5. PunktWordTokenizer() :

這個有問題,emmmm,還沒解決,先留個坑吧

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章