NLP工具

bosonnlp

from bosonnlp import BosonNLP
import datetime
nlp=BosonNLP('BOSON_API_TOKEN')
//中文時間轉換
result=nlp.convert_time("去年清明節")
//語義聯想,相關詞
suggest=nlp.suggest('數學',top_K=10)
//關鍵詞提取,有權重,權重平方和爲1
keywords=nlp.extract_keywords(text,top_k=2)

word2vec

//從經過分詞的文件訓練詞向量
./word2vec -train words.txt -output vectors.bin -cbow 0 -size 100 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

//分析詞,輸入三個詞
./word-analogy  vectors.bin

//將經過分詞的文件轉換爲包含詞和短語的文件
./word2phrase -train words.txt -output phrase.txt -threshold 500 -debug 2

gensim

//獲取文本標籤,docs.txt格式爲一個文本一行,爲分詞後的文本,用空格分隔
from gensim.models import Doc2Vec
documents=TaggedLineDocument('docs.txt')
model=Doc2Vec(documents,size=100,window=8,min_count=5,workers=4)
model.save('docs.vector')
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章