原创 剛接觸Lucene3.0.2寫的一個小程序

  用的是ecplise環境,把lucene 的jar包導入新建的工程中... 一共兩個文件: --------------------------

原创 Lucene下引入ICTCLAS進行中文分詞的實現方法

  Analysis包分析 算法和數據結構分析: 由於Analysis包比較簡單,不詳述了! 算法:基於機械分詞 1-gram,2-gram

原创 一個用Lucene3.0 的搜索項目設計總體圖

 目前一個項目裏面用了Lucene3.0做一個搜索引擎。是想作爲一個平臺性質的。爲各個應用提供搜索服務。 底層數據庫建索引是支持對多個數據庫建索引的,因爲不同應用的數據庫可能不一樣。所以在搜索結果和返回搜索數據之間增加了一個業務處理層,專

原创 lucene3.0簡單解析

 一、 概述       Lucene3.0(以下簡稱3.0)已於2009-11-25發佈,3.0版本是重大的版本,改動很大。在API上做了很多的調

原创 字符串匹配相關算法總結

  字符串匹配定義:文本是一個長度爲n的數組T[1…n], 模式是以個長度m<=n的數組P[1…m] P和T的元素都是有限字母表∑中的字符 ‍ 1

原创 再論Java全角半角轉換

 最近在做中文處理時,遇到了 全角半角 轉換的問題,於是到網上搜了一下,問題基本上得到解決,但是發現沒有對全角空格,和半角空格做轉換處理,而且 半角

原创 常用正則表達式2

這只是做一個簡單的總結,以便自己以後使用起來方便一點 匹配中文字符的正則表達式: [\u4e00-\u9fa5]    評註:匹配中文還真是個頭疼的事,有了這個表達式就好辦了        匹配雙字節字符(包括漢字在內):[^\x00-\

原创 常用的正則表達式

[size=12px]1。^\d+$  //匹配非負整數(正整數 + 0) 2。^[0-9]*[1-9][0-9]*$  //匹配正整數 3。^((-\d+)|(0+))$  //匹配非正整數(負整數 + 0) 4。^-[0-9]*[

原创 (ICTCLAS)TjuChineseAnalyzer.源代碼如下:

  分詞名稱:TjuChineseAnalyzer.源代碼如下: package org.apache.lucene.analysis.tjuc

原创 中文分詞內容集錦

1. http://lcl.cnblogs.com/archive/2006/01/27/323742.html   2. http://search.cpan.org/dist/Lingua-ZH-WordSegment/ 3. htt

原创 中科院中文分詞系統ICTCLAS之人名識別詞典分析

  請在閱讀本文前,先確認已閱讀過論文《張華平,劉羣.基於角色標註的中國人名自動識別研究》。 論文把與人名相關的詞分爲了15個角色,通過詞典查詢,可以判斷某些文字、詞所屬角色,然後根據模式匹配找到匹配上

原创 中文分詞與停用詞的作用

首先什麼是中文分詞stop word?  英文是以詞爲單位的,詞和詞之間是靠空格隔開,而中文是以字爲單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則爲:“我是一個學生”。計算機可以很簡單通

原创 Hibernate簡單示例

1.導入所需的各種jar包 2. hibernate.cfg.xml配置文件 <!DOCTYPE hibernate-configuration PUBLIC "-//Hibernate/Hibernate Configuration

原创 DWR入門與使用

Java 開發人員與網頁設計人員的橋樑 DWR…呃!我懶得寫簡介了…直接來看看可以做什麼吧!… 請先到 http://getahead.ltd.uk/dwr/ 下載 dwr.jar,放到WEB-INF/lib下… 負責處理客戶端請求,

原创 Lucene查詢簡述

本示例是對Lucene查詢,對結果進行了一些處理(Lucene 3.5):   1、支持前綴搜索,如*國,可以搜索出中國、美國等國字結尾的詞的內容:         支持後綴匹配,如國* 則可以搜索中國