中文自然語言處理工具HanLP源碼包的下載使用記錄


這篇文章主要分享的是hanlp自然語言處理源碼的下載,數據集的下載,以及將讓源代碼中的demo能夠跑通。Hanlp安裝包的下載以及安裝其實之前就已經有過分享了。本篇文章主要還是備忘之用,同時算是給新手朋友的一些參考吧!

不過在此之前先推薦兩本書給想要學習中文自然語言處理的朋友,分別是《NLP漢語自然語言處理原理與實戰》,裏面介紹了漢語自然語言處理的相關技術,還有一些源碼的解讀;另一本是《python自然語言處理》。

下面就進入到本篇的正題,其實只需要下載源代碼,下載字典和模型數據文件、下載配置文件,並且對配置文件稍作修改,然後再使用IDE打開源代碼,就可以運行了,總的來說整個過程其實並不複雜。源代碼、字典以及模型、配置文件的下載大家可以到GitHub上下載。

網頁中提供了詳細的說明,其實按照說明來就可以,下載以後將字典和模型文件解壓到一個目錄,建議放在工程名目錄下:

 

圖1.JPG

data中就是模型文件和字典數據文件:

 

圖2.JPG

通過github提供的源代碼下載鏈接下載下來的文件不包含hanlp.properties配置文件,這是你需要下載一個release版本的代碼,解壓以後,裏面有一個hanlp.properties文件

 

圖3.JPG

將這個文件分別拷貝到解壓以後的源代碼target/classes和target-classes目錄下

 

圖4.JPG

最後用ide打開源代碼,我使用的ide工具是IDEA(Intellij),其他ide的操作應該大同小異,當然配置文件也許只需要一份就夠了,不需要兩個目錄都拷貝,我這裏沒有驗證,爲保險起見,兩個目錄下都拷貝一份,讀者可以試驗一下,我這裏主要目的是爲了能跑通。

 

上述步驟完成之後,打開src/test/java/com.hankcs/demo下的demo,就可以跑出結果了,接下來,就順藤摸瓜去讀源代碼吧

 

圖5.JPG


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章