lucene淺談

1.導圖:

在這裏插入圖片描述

2.簡述:

lucene是基於java的全文索引,用來快速的檢索數據,之前我們接觸到的是結構化的數據,例如數據庫,但是對於非結構化數據內容的查找就需要lucene,我們在做項目的時候可能用不到lucene,但是用到的elasticsearch都是基於lucene的。

非結構化數據:文檔裏面的內容,如word、excel、文本文檔等。

全文檢索可以查詢任意數據,包闊結構化數據和非結構化數據,簡單的分析一下過程。

在這裏插入圖片描述
(1)首先需要獲得原始文檔,既要搜索的文檔,如下.txt文檔
在這裏插入圖片描述

(2)獲得文檔之後,創建文檔對象,如下圖:一個文檔裏面分了多個域,每個域由name和value組成,同一個Document可以有相同的Field(域名和域值都相同),每個文檔都有一個唯一的編號,就是文檔id。
在這裏插入圖片描述

(3)創建索引

對所有文檔分析得出的語彙單元進行索引,索引的目的是爲了搜索,最終要實現只搜索被索引的語彙單元從而找到Document(文檔)。
在這裏插入圖片描述
根據上圖我們可以清晰的看到,是根據索引找到的文檔,這種索引的結構叫倒排索引結構。
在這裏插入圖片描述
倒排索引結構也叫反向索引結構,包括索引和文檔兩部分,索引即詞彙表,它的規模較小,而文檔集合較大。
倒排索引:通過關鍵詞找文檔,傳統的是根據文檔找關鍵詞

(4)查尋索引

用戶輸入關鍵字,根據關鍵字找到索引,在根據索引找到對應的文檔,從而找到搜索的內容(磁盤上的文件)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章