原创 NLPIR分詞亂碼問題

NLPIR_Init()默認的編碼格式是GBK,處理中文我們採用默認格式就好。 如果要從txt文件中讀取文本然後分詞、詞性標註,TXT文件的編碼格式應該保存爲ANSI。這樣結果就不會出現亂碼啦。

原创 文本表示

要使得計算機能高效的處理真實文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實的反映文檔內容(主題、領域或結構等),另一方面也要有對不同文檔的區分能力。   目前文本表示通常採用向量空間模型(vector space mo

原创 NLPIR中科院分詞系統初始化失敗

初始化失敗通常是由於授權過期導致。從NLPIR的github網址下載最新的授權文件NLPIR.user,然後覆蓋掉之前文件data中的NLPIR.user,重啓系統即可使用。

原创 遞推和遞歸

轉載自:http://blog.csdn.net/shunrei/article/details/5680601 遞推:構造低階的規模(如規模爲i,一般i=0)的問題,並求出解,推導出問題規模爲i+1的問題以及解,依次推到規模爲n的問

原创 安裝python包

python相關工具包的安裝對我來說真是一大難事,但是自從有了pycharm,就變得容易多了。 打開pycharm IDE,file-----settings------project,如下圖 點擊project interpreter

原创 Pycharm5註冊方式

  0x1 ,安裝 0x2 , 調整時間到2038年。 0x3 ,申請30天試用 0x4, 退出pycharm 0x5, 時間調整回來。   ##註冊方法2### 註冊方法:    在 註冊時選擇 License s

原创 XML解析技術研究(一)

XML解析技術研究(一)  摘要:XML作爲過去十年中出現的最流行的技術之一,得到了廣泛的應用,而其中XML解析技術是XML應用的關鍵。本文介紹了XML解析技術的研究動向,分析和比較了4種XML解析技術的優劣,並歸納總結了應用系統設計中選

原创 初學者如何查閱自然語言處理領域學術資料(轉)

轉載自http://blog.sina.com.cn/s/blog_574a437f01019poo.html 昨天實驗室一位剛進組的同學發郵件來問我如何查找學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看着學長們高談闊論領域動

原创 NLPIR2014配置及使用(C語言)

詞法分析是自然語言處理的基礎與關鍵。張華平博士在多年研究工作積累的基礎上,研製出了NLPIR 分詞系統,主要功能包括中文分詞;英文分詞;詞性標註;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼(