原创 HanLP封裝爲web services服務的過程介紹

 前幾天的召開的2019年大數據生態產業大會不知道大家關注到沒有,看到消息是hanlp2.0版本發佈了。不知道hanlp2.0版本又將帶來哪些新的變化?準備近期看能夠拿到一些hanlp2.0的資料,如果能順利拿到的話,到時候分享給大家!今天

原创 hanlp分詞工具應用案例:商品圖自動推薦功能的應用

 本篇分享一個hanlp分詞工具應用的案例,簡單來說就是做一圖庫,讓商家輕鬆方便的配置商品的圖片,最好是可以一鍵完成配置的。先看一下效果圖吧:   商品單個推薦效果:匹配度高的放在最前面 這個想法很好,那怎麼實現了。分析了一下解決方案步驟:

原创 HanLP分詞工具中的ViterbiSegment分詞流程

本篇文章將重點講解HanLP的ViterbiSegment分詞器類,而不涉及感知機和條件隨機場分詞器,也不涉及基於字的分詞器。因爲這些分詞器都不是我們在實踐中常用的,而且ViterbiSegment也是作者直接封裝到HanLP類中的分詞器,

原创 hanlp自然語言處理包的人名識別代碼解析

原文鏈接:https://zhuanlan.zhihu.com/p/75057531 HanLP發射矩陣詞典nr.txt中收錄單字姓氏393個。袁義達在《中國的三大姓氏是如何統計出來的》文獻中指

原创 HanLP-命名實體識別總結

人名識別 在HanLP中,基於角色標註識別了中國人名。首先系統利用隱馬爾可夫模型標註每個詞語的角色,之後利用最大模式匹配法對角色序列進行匹配,匹配上模式的即爲人名。理論指導文章爲:《基於角色標註的中國人名自動識別研究》,大家可以百度一下看看

原创 Hanlp-地名識別調試方法詳解

HanLP收詞特別是實體比較多,因此特別容易造成誤識別。下邊舉幾個地名誤識別的例子,需要指出的是,後邊的機構名識別也以地名識別爲基礎,因此,如果地名識別不準確,也會導致機構名識別不準確。類型1 數字+地名[1] 暗訪哈爾濱網約車:下10單來

原创 HanLP-樸素貝葉斯分類預測缺陷

文章整理自 baiziyu 的知乎專欄,感興趣的朋友可以去關注下這位大神的專欄,很多關於自然語言處理的文章寫的很不錯。昨天看到他的分享的兩篇關於樸素貝葉斯分類預測的文章,整理了一下分享給給大家,文章已做部分修改! 樸素貝葉斯分類時,最好取對

原创 自然語言處理工具HanLP-基於層疊HMM地名識別

本篇接上一篇內容《HanLP-基於HMM-Viterbi的人名識別原理介紹》介紹一下層疊隱馬的原理。首先說一下上一篇介紹的人名識別效果對比: 只有Jieba識別出的人名準確率極低,基本爲地名或複雜地名組成部分或複雜機構名組成部分。舉例如下

原创 HanLP-基於HMM-Viterbi的人名識別原理介紹

Hanlp自然語言處理包中的基於HMM-Viterbi處理人名識別的內容大概在年初的有分享過這類的文章,時間稍微久了一點,有點忘記了。看了 baiziyu 分享的這篇比我之前分享的要簡單明瞭的多。下面就把文章分享給大家交流學習之用,部分內容

原创 HanLP-地名識別調試方法

HanLP收詞特別是實體比較多,因此特別容易造成誤識別。下邊舉幾個地名誤識別的例子,需要指出的是,後邊的機構名識別也以地名識別爲基礎,因此,如果地名識別不準確,也會導致機構名識別不準確。 類型1 數字+地名[1] 暗訪哈爾濱網約車:下10單

原创 自然語言處理工具python調用hanlp的方法步驟

Python調用hanlp的方法此前有分享過,本篇文章分享自“逍遙自在017”的博客,個別處有修改,閱讀時請注意!1.首先安裝jpype首先各種坑,jdk和python 版本位數必須一致,我用的是JPype1-py3 版本號0.5.5.2

原创 python調用hanlp進行命名實體識別

 本文分享自 6丁一的貓 的博客,主要是python調用hanlp進行命名實體識別的方法介紹。以下爲分享的全文。1、python與jdk版本位數一致 2、pip install jpype1(python3.5) 3、類庫hanlp.jar

原创 hanlp添加自定義字典的步驟介紹

 本篇分享一個hanlp添加自定義字典的方法,供大家參考!總共分爲兩步:第一步:將自定義的字典放到custom目錄下,然後刪除CustomDicionary.txt.bin,因爲分詞的時候會讀這個文件。如果沒有的話它會根據配置文件中路徑去加

原创 Spring MVCD框架中調用HanLP分詞的方法

項目簡要:關於java web的一個項目,用的Spring MVCd 框架。鑑於參與此次項目的人中並不是所人都做的Spring,爲了能夠提高效率,建議大家是先拋開SPring來寫自己負責的模塊,最後再把各個模塊在Spring裏面集成。 項

原创 Spring MVCD框架中調用HanLP分詞的方法

項目簡要:關於java web的一個項目,用的Spring MVCd 框架。鑑於參與此次項目的人中並不是所人都做的Spring,爲了能夠提高效率,建議大家是先拋開SPring來寫自己負責的模塊,最後再把各個模塊在Spring裏面集成。項目裏