Lucene 3.4 版本中文分詞和2.X的版本不同之處：

原創

2020-02-26 04:14

Lucene 3.4 版本中文分詞和2.X的版本不同之處：

2.X 版本都是用 je.analyzer.jar 等

3.4 的中文分詞所需的jar 可以在本身包裏找到,
StandardAnalyzer: Index unigrams (individual Chinese characters) as a token. CJKAnalyzer (in the analyzers/cjk package): Index bigrams (overlapping groups of two adjacent Chinese characters) as tokens. SmartChineseAnalyzer (in the analyzers/smartcn package): Index words (attempt to segment Chinese text into words) as tokens.
Example phrase： "我是中國人"

StandardAnalyzer: 我－是－中－國－人
CJKAnalyzer: 我是－是中－中國－國人
SmartChineseAnalyzer: 我－是－中國－人
這是分詞結果，代碼如下：

Analyzer analyzer4 = new SimpleAnalyzer(Version.LUCENE_34);
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_34);//StandardAnalyzer
Analyzer analyzer2 = new SmartChineseAnalyzer(Version.LUCENE_34);//SmartChineseAnalyzer

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Lucene】分詞器詳解，常用的分詞器，IKANalyzer

【Lucene】分詞器詳解，常用的分詞器，IKANalyzer1. 分詞器詳解1.1 分詞器的作用1.2 分詞器API1.2.1 示例1.2.2 Analyzer1.2.3 createComponents(String fiel

私忆一秒钟

2020-07-05 06:33:12

【Lucene】索引庫的基本操作（增刪改查）

【Lucene】索引庫的基本操作（增刪改查）1. 增加1.1 Field域的屬性1.2 添加文檔實現2. 刪除2.1 刪除全部2.2 指定條件刪除3. 修改4. 查詢4.1 使用TermQuery查詢4.2 數值範圍查詢4.3 使

私忆一秒钟

2020-07-05 06:33:12

【Lucene】全文檢索簡介，Lucene實現流程，入門案例

【Lucene】全文檢索簡介，Lucene實現流程，入門案例1. 前言2. 全文檢索簡介2.1 數據分類2.2 結構化數據搜索2.3 非結構化數據查詢方法2.3.1 順序掃描法(Serial Scanning)2.3.2 全文檢索

私忆一秒钟

2020-07-05 06:33:12

Lucene的介紹與使用

爲什麼要學習Lucene？原來的方式實現搜索功能，我們的搜索流程如下圖：如果用戶比較少而且數據庫的數據量比較小，那麼這種方式實現搜索功能在企業中是比較常見的。但是數據量過多時，數據庫的壓力就會變得很大，查詢速度會變得非常慢。我們需要

2020-07-07 19:09:23

spring+hibernate+compass

首先是spring與compass的集成配置文件：applicationContext-compass.xml Xml代碼 <? xml version = "1.0" encoding = "UTF

2020-07-07 17:30:57

如何提高Lucene建立索引的速度 How to make indexing faster

How to make indexing faster Here are some things to try to speed up the indexing speed of your Lucene application. Pl

2020-07-03 09:13:19

Lucene基本使用和代碼實現

目錄 Lucene:全文檢索技術一、Lucene的介紹 1.1背景 1.2優點 1.3Lucene的缺點 1.4全文檢索二、Lucene的基本使用流程 2.1Lucene檢索過程 2.2獲取文檔 2.3分析文檔（分詞） 2

yang13563758128

2020-06-30 09:09:10

Lucene3.6 之 Filter

1、TermRangeFilter A Filter that restricts search results to a range of term values in a given field. This filter match

2020-06-30 01:12:47

Lucene 分詞

分詞的基本原理： 1、分詞是用來對文本按語言特徵按算法進行過濾、分組處理的一種技術。 2、分詞的對象是文本，而不是圖像動畫腳本等等。 3、分詞的方式就是過濾和分組。 4、過濾主要把文本中那些沒有實際意義的字或詞過濾掉。

2020-06-29 04:47:38

Lucene 搜索二

Lucene分頁搜索的實現： [java] view plaincopy package com.qianyan.lucene; import java.io.IOException; impo

2020-06-29 04:47:38

Lucene 基本概念

首先、要做一個自己的企業內部搜素引擎呢，要認識Lucene： 1、Lucene的貢獻者Doug Cutting是一位自身全文索引/檢索專家，曾經是V-Twin搜索引擎（Apple的Copland操作系統的成就之一）的主要開發者

2020-06-29 04:47:38

集成Nutch和Solr

兩年前集成Nutch 和Solr 這兩個Apache Lucene 項目組下的子項目實在是件困難的事情，需要打很多補丁(patches),爲他們的聯姻搜尋各種必需的組件(required components)。今非昔比，時下，在Solr

2020-06-29 04:40:23

拆解Cluene系列(6)——Analyzer的職責鏈模式

職責鏈模式(Chain of Responsibility)：使多個對象都有機會處理請求，從而避免請求的發送者和接收者之間的耦合關係。將這些對象連成一條鏈，並沿着這條鏈傳遞該請求，直到有一個對象處理它爲止。關於職責鏈模式，可以參考博文：

聪明的狐狸

2020-06-28 04:55:22

【Lucene基本知識】

Lucene只是一個提供索引和查詢的類庫，並不是一個完整的企業級應用，企業需要根據自己的應用場景進行如數據獲取、數據預處理、用戶界面提供等工作。搜索引擎Solr和ElasticSearch都是基於Lucene的企業級應用。 Re

2020-06-27 17:09:47

Lucene 4 Demo

轉載出處：http://www.cnblogs.com/xing901022/p/3933675.html 講解之前，先來分享一些資料　　首先呢，學習任何一門新的亦或是舊的開源技術，百度其中一二是最簡單的辦法，先了解其中的

2020-06-27 14:54:24

24小時熱門文章

最新文章

最新評論文章