Solr（四）中文分詞及IK庫的使用

原創

2020-06-09 07:31

目錄

1.2 配置目的

1.3 分詞器的選擇

2. 分詞器的配置

2.2 修改managed-sahma

2.3 把IK的配置入到solr

2.4 重啓solr分析

2.5 存在問題

3.中文分詞如何使用到屬性上

3.1 添加一個屬性

3.2 添加數據

3.3 查看分詞

3.4 查詢測試

4. 自定義分詞

1. 概述

1.1 分詞：

指將一箇中文詞語拆成若干個詞，提供搜索引擎進行查找，比如說：北京大學是一個詞那麼進行拆分可以得到：北京與大學，甚至北京大學整個詞也是一個語義。可以理解爲，輸入的一句話，按照它自己定義的規則分爲常用詞語。

首先，Solr有自己基本的類型，string、int、date、long等等。對於string類型，比如在你的core/conf/manage-schema文件中，配置一個字段類型爲string類型，如果查詢符合“我是中國人”的數據，它就認爲“我是中國人”是一個詞語。

但是如果你將該字段設置成了分詞，即配置成了text_ik類型，就可能匹配“我”、“中國人”、“中國”、“中”、“人”帶有這些字的該字段數據都可能被查詢到。這就是分詞帶來的結果。具體要按照各自的業務來配置是否分詞，分詞對於大文本字段設置是合理的，但是對於小字段，設置分詞是沒必要的，甚至有相反的結果。比如你的某一個叫姓名的字段設置了分詞，還不如設置string,查詢時模糊匹配效果最好，（模糊匹配就是查詢條件兩邊加上*），當然也要看自己業務需求是什麼。

1.2 配置目的

通過配置讓solr能對中文進行分詞

1.3 分詞器的選擇

之前我們使用jieba分詞，效果不是很好。現在有個非常牛逼的分詞器，IK 分詞器，效果非常好，如果你一直使用solr 那麼以後將一直使用IK分詞器。中文分詞在solr裏面是沒有默認開啓的，需要自己配置一箇中文分詞器。

目前可用的分詞器有smartcn，IK，Jeasy，庖丁。其實主要是兩種，一種是基於中科院ICTCLAS的隱式馬爾科夫HMM算法的中文分詞器，如smartcn，ictclas4j，優點是分詞準確度高，缺點是不能使用用戶自定義詞庫；另一種是基於最大匹配的分詞器，如IK ，Jeasy，庖丁，優點是可以自定義詞庫，增加新詞，缺點是分出來的垃圾詞較多。各有優缺點。

主流還是ik,可以擴展自己的詞庫，非常方便，加入一些熱搜詞，主題詞，對於搜索而言，非常方便

2. 分詞器的配置

2.1 下載

下載ik (5及以上版本通用)

http://files.cnblogs.com/files/zhangweizhong/ikanalyzer-solr5.zip

ext.dic自定義詞如沙雕在漢語裏面不是一個詞，它只是一個網絡用語，可以配置到這裏面讓它成爲一個詞
stopword.dic 停止字典，如：啊吧唉不作分詞
IKAnalyzer.cfg.xml配置ik的配置文件不用改
Jar：如果要使用ik分詞要導入的jar包

2.2 修改managed-sahma

  <!--添加一箇中文分詞器IK-->
  <fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100"> 
      <analyzer type="index">
       <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/>
      </analyzer>
      <analyzer type="query">
       <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
      </analyzer>
    </fieldType>

useSmart 和分詞的粒度相關：

false: 分詞的粒度大，一句話裏面分的詞語少
true:分詞的粒度細,一句話裏面分的詞語多

那我們在導入時需要的關鍵字多嗎？讓索引的數據量少一點。我們的粒度大：false；我們在搜索時需要的關鍵字多嗎？我們想盡可能的覆蓋所有的範圍，我們的粒度要細：true

把修改後的managed-sahma覆蓋到solr

2.3 把IK的配置入到solr

2.3.1 放入jar包

/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/lib

2.3.2 放配置

在目錄/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF下創建一個classes目錄

2.4 重啓solr分析

2.5 存在問題

索引時要遵循一個原則：

索引時分詞的要儘量少
搜索時分詞儘量多

修改配置：

3.中文分詞如何使用到屬性上

3.1 添加一個屬性

3.2 添加數據

3.3 查看分詞

3.4 查詢測試

爲什麼pro3有 pro沒有因爲ik分詞時認爲pro3是一個詞而pro不是詞

4. 自定義分詞

如：“大豬蹄子”默認並不是一個詞

在ext.dic裏添加一個自定義的詞

重啓測試

申明：內容來自網絡，僅供學習使用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SQL Server 全文檢索

微軟的SQL Server數據庫是一個在中低端企業應用中佔有廣泛市場的關係型數據庫系統，它以簡單、方便、易用等特性深得衆多軟件開發人員和數據庫管理人員的鐘愛。但SQL Server 7.0以前的數據庫系統由於沒有全文檢索功能，

2020-07-08 05:51:38

基於Ifilter接口的文檔解析

Ifilter接口是Windows自帶的文檔解析的接口，Windows Search, SQL 檢索, Share Point等使用的都是該接口，目前該接口在Win7 和 XP系統中都可使用。 Ifilter接口派生於Iunknow, 所

2020-07-08 03:39:04

Elasticsearch實戰：給博客打造全文檢索

學習和使用Elasticsearch有一段時間了，項目中大量使用到了es，但對於我來說都是部分或者局部地去使用，所以得找個時間好好整理並且再完整實踐一下es，於是就有了這篇文章。首先系統架構是LNMP，很簡單的個人博客網站（

闲敲代码、落灯花

2020-07-07 23:49:18

2018_02_27 全文檢索技術----Lucene

數據庫中保存的數據，磁盤中保存的數據都可以算做數據，常用的數據分爲兩種，一種是結構化數據，數據格式固定，長度有限，例如數據庫中存儲的數據，另一種是非結構化數據，數據格式不固定，長度不固定，例如磁盤中存儲的文檔數據。結構化數據的查詢可以

2020-07-07 21:44:35

裝了一天的windows sharepoint service

第一次安裝的時候選的缺省選項，使用的是wss自帶的sqlserver desktop版，發現不能全文檢索，就安裝了sqlserver2000企業版，然後刪除了wss和msde，在安裝wss，安裝完成後無法配置，提示需要sqlserver

2020-07-05 09:36:57

【Lucene】全文檢索簡介，Lucene實現流程，入門案例

【Lucene】全文檢索簡介，Lucene實現流程，入門案例1. 前言2. 全文檢索簡介2.1 數據分類2.2 結構化數據搜索2.3 非結構化數據查詢方法2.3.1 順序掃描法(Serial Scanning)2.3.2 全文檢索

私忆一秒钟

2020-07-05 06:33:12

sqlite全文查詢配置到使用全過程

SQLite是一款輕型的數據庫，是遵守ACID的關聯式數據庫管理系統，它的設計目標是嵌入式的，而且目前已經在很多嵌入式產品中使用了它，它佔用資源非常的低，在嵌入式設備中，可能只需要幾百K的內存就夠了。它能夠支持Windows/

2020-07-05 00:18:10

oracle 百萬數據查詢優化技巧

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 wher

2020-07-04 20:33:50

Hibernate Search 初體驗

不久前Hibernate推出了Hibernate Search 3.0 GA，由它的名字大家也可以大概猜到它的作用是對數據庫中的數據進行檢索的。它是hibernate對著名的全文檢索系統Lucene的一個集成方案，作用在於對數據表中某些

2020-07-03 02:49:28

年末整理十二

安裝MySQL 時，系統提示：Cannot create windows service for mysql.error:0 收藏安裝MySQL 時，系統提示：Cannot create windows service for mysq

zhengjunwei2007

2020-07-02 21:35:40

Java搜索引擎 Lucene

Java搜索引擎 Lucene收藏該軟件我的收藏夾/設置 Lucene是一套用於全文檢索和搜尋的開源程式庫，由Apache軟件基金會支持和提供。Lucene提供了一個簡單確強大的應用程式接口，能夠做全文索引和搜尋，在J

2020-07-02 15:57:21

最老程序員創業札記：全文檢索、數據挖掘、推薦引擎應用2

吳言的直接上司張宏宇比他小10歲，是一個北大畢業的碩士，頭腦相當靈活，辦事效率非常高，常常別人還不明白是怎麼回事的時侯他就恍然大悟了。他的頭銜是研發總監，實際上就是研發部門經理，手下有20幾個人，他還有一個漂亮的女朋友，靚照就放在筆記本

2020-06-30 10:48:10

最老程序員創業札記：全文檢索、數據挖掘、推薦引擎應用4

王總的部門會原定九點鐘的部門會，由於王總在路上堵車，到九點半才正式開始。會議像往常一樣由王總主持，首先是研發總監張宏宇做工作總結。張宏宇站了起來，用充滿自信的語氣講起來：“各位同事，大家好！首先感謝各位同事的Hard Work，我經

2020-06-30 10:48:00

docker swarm集羣下部署elasticsearch7.6.2集羣+kibana7.6.2+es-head+中文分詞

docker swarm集羣下部署elasticsearch7.6.2集羣+kibana7.6.2+es-head+中文分詞上一篇文章是：linux Centos7 安裝搭建elasticsearch7.6.2+kibana7.6.2+

grootblockchain

2020-06-29 12:34:10

[轉載]Lucene：基於Java的全文檢索引擎簡介

Lucene是一個基於Java的全文索引工具包。基於Java的全文索引引擎Lucene簡介：關於作者和Lucene的歷史全文檢索的實現：Luene全文索引和數據庫索引的比較中文切分詞機制簡介：基於詞庫和自動切分詞算法的比較具

2020-06-29 11:32:09

24小時熱門文章

最新文章

最新評論文章