1. Lucene簡介

　　Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能，或者是以此爲基礎建立起完整的全文檢索引擎。Lucene是一套用於全文檢索和搜尋的開源程式庫，由Apache軟件基金會支持和提供。Lucene提供了一個簡單卻強大的應用程式接口，能夠做全文索引和搜尋。在Java開發環境裏Lucene是一個成熟的免費開源工具。就其本身而言，Lucene是當前以及最近幾年最受歡迎的免費Java信息檢索程序庫。人們經常提到信息檢索程序庫，雖然與搜索引擎有關，但不應該將信息檢索程序庫與搜索引擎相混淆。

2. 什麼是全文檢索

2.1 數據分類

我們生活中的數據總體分爲兩種：結構化數據和非結構化數據。

結構化數據：指具有固定格式或有限長度的數據，如數據庫，元數據等。
非結構化數據：指不定長或無固定格式的數據，如郵件，word文檔等磁盤上的文件

2.2 結構化數據搜索

常見的結構化數據也就是數據庫中的數據。在數據庫中搜索很容易實現，通常都是使用sql語句進行查詢，而且能很快的得到查詢結果。

爲什麼數據庫搜索很容易？

因爲數據庫中的數據存儲是有規律的，有行有列而且數據格式、數據長度都是固定的。

2.3 非結構化數據查詢方法

2.3.1 順序掃描法(Serial Scanning)

所謂順序掃描，比如要找內容包含某一個字符串的文件，就是一個文檔一個文檔的看，對於每一個文檔，從頭看到尾，如果此文檔包含此字符串，則此文檔爲我們要找的文件，接着看下一個文件，直到掃描完所有的文件。如利用windows的搜索也可以搜索文件內容，只是相當的慢。

2.3.2 全文檢索(Full-text Search)

將非結構化數據中的一部分信息提取出來，重新組織，使其變得有一定結構，然後對此有一定結構的數據進行搜索，從而達到搜索相對較快的目的。這部分從非結構化數據中提取出的然後重新組織的信息，我們稱之索引。

例如：字典。字典的拼音表和部首檢字表就相當於字典的索引，對每一個字的解釋是非結構化的，如果字典沒有音節表和部首檢字表，在茫茫辭海中找一個字只能順序掃描。然而字的某些信息可以提取出來進行結構化處理，比如讀音，就比較結構化，分聲母和韻母，分別只有幾種可以一一列舉，於是將讀音拿出來按一定的順序排列，每一項讀音都指向此字的詳細解釋的頁數。我們搜索時按結構化的拼音搜到讀音，然後按其指向的頁數，便可找到我們的非結構化數據——也即對字的解釋。

這種先建立索引，再對索引進行搜索的過程就叫全文檢索(Full-text Search)。

雖然創建索引的過程也是非常耗時的，但是索引一旦創建就可以多次使用，全文檢索主要處理的是查詢，所以耗時間創建索引是值得的。

2.4 如何實現全文檢索

可以使用Lucene實現全文檢索。Lucene是apache下的一個開放源代碼的全文檢索引擎工具包。提供了完整的查詢引擎和索引引擎，部分文本分析引擎。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能。

2.5 全文檢索的應用場景

對於數據量大、數據結構不固定的數據可採用全文檢索方式搜索，比如百度、Google等搜索引擎、論壇站內搜索、電商網站站內搜索等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Lucene（一）入門介紹

1. Lucene簡介

2. 什麼是全文檢索

2.1 數據分類

2.2 結構化數據搜索

2.3 非結構化數據查詢方法

2.3.1 順序掃描法(Serial Scanning)

2.3.2 全文檢索(Full-text Search)

2.4 如何實現全文檢索

2.5 全文檢索的應用場景

RabbitMQ（一）安裝詳細

文件上傳下載相關處理

Docker--開發中常用操作

學習筆記：JavaEE開發的顛覆者SpringBoot實戰（十一）應用監控

學習筆記：JavaEE開發的顛覆者SpringBoot實戰（十）開發部署與測試

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結