[轉]開放源代碼的全文檢索引擎Lucene

[轉]開放源代碼的全文檢索引擎Lucene
 
――介紹、系統結構與源碼實現分析
【 相關資料 】
本文來自: http://www.lucene.com.cn/about.htm (LUCENE.COM.CN 中國
Lucene官方網站:http://lucene.apache.org/java/docs/index.html
Lucene國內網站:http://www.lucene.com.cn
Lucene API手冊: http://lucene.com.cn/lucene/
Lucene實踐:http://www.lucene.com.cn/sj.htm
車東文章:http://www.chedong.com/tech/lucene.html
[書]《征服Ajax+Lucene構建搜索引擎》:http://www.china-pub.com/computers/common/info.asp?id=29996
[書]《Lucene in Action》:http://www.lucene.com.cn/Lucene_in_%20Action.pdf



【本文目錄】

第一節 全文檢索系統與Lucene簡介··· 3
 
   第一節 全文檢索系統與Lucene簡介
 
 
 
 
全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。
 
全文檢索的方法主要分爲按字檢索和按詞檢索兩種。按字檢索是指對於文章中的每一個字都建立索引,檢索時將詞分解爲字的組合。對於各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,並且可以處理同義項等。英文等西方文字由於按照空白切分詞,因此實現上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關於這方面的問題,是當前全文檢索技術尤其是中文全文檢索技術中的難點,在此不做詳述。
 
全文檢索系統是按照全文檢索理論建立起來的用於提供全文檢索服務的軟件系統。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,此外現代的全文檢索系統還需要具有方便的用戶接口、面向WWW[1]的開發接口、二次應用開發接口等等。功能上,全文檢索系統核心具有建立索引、處理查詢返回結果集、增加索引、優化索引結構等等功能,外圍則由各種不同應用具有的功能組成。結構上,全文檢索系統核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等等,加上各種外圍應用系統等等共同構成了全文檢索系統。圖1.1展示了上述全文檢索系統的結構與功能。
 
在上圖中,我們看到:全文檢索系統中最爲關鍵的部分是全文檢索引擎,各種應用程序都需要建立在這個引擎之上。一個全文檢索應用的優異程度,根本上由全文檢索引擎來決定。因此提升全文檢索引擎的效率即是我們提升全文檢索應用的根本。另一個方面,一個優異的全文檢索引擎,在做到效率優化的同時,還需要具有開放的體系結構,以方便程序員對整個系統進行優化改造,或者是添加原有系統沒有的功能。比如在當今多語言處理的環境下,有時需要給全文檢索系統添加處理某種語言或者文本格式的功能,比如在英文系統中添加中文處理功能,在純文本系統中添加XML[2]或者HTML[3]格式的文本處理功能,系統的開放性和擴充性就十分的重要。
 
 
Lucene是apache軟件基金會[4] jakarta項目組的一個子項目,是一個開放源代碼[5]的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此爲基礎建立起完整的全文檢索引擎。
 
Lucene的原作者是Doug Cutting,他是一位資深全文索引/檢索專家,曾經是V-Twin搜索引擎[6]的主要開發者,後在Excite[7]擔任高級系統架構設計師,目前從事於一些Internet底層架構的研究。早先發布在作者自己的http://www.lucene.com/,後來發佈在SourceForge[8],2001年年底成爲apache軟件基金會jakarta的一個子項目:http://jakarta.apache.org/lucene/
 
三、             Lucene的應用、特點及優勢
 
作爲一個開放源代碼項目,Lucene從問世之後,引發了開放源代碼社羣的巨大反響,程序員們不僅使用它構建具體的全文檢索應用,而且將之集成到各種系統軟件中去,以及構建Web應用,甚至某些商業軟件也採用了Lucene作爲其內部全文檢索子系統的核心。apache軟件基金會的網站使用了Lucene作爲全文檢索的引擎,IBM的開源軟件eclipse[9]的2.1版本中也採用了Lucene作爲幫助子系統的全文索引引擎,相應的IBM的商業軟件Web Sphere[10]中也採用了Lucene。Lucene以其開放源代碼的特性、優異的索引結構、良好的系統架構獲得了越來越多的應用。
 
Lucene作爲一個全文檢索引擎,其具有如下突出的優點:
(1)索引文件格式獨立於應用平臺。Lucene定義了一套以8位字節爲基礎的索引文件格式,使得兼容系統或者不同平臺的應用能夠共享建立的索引文件。
(2)在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然後通過與原有索引的合併,達到優化的目的。
(3)優秀的面向對象的系統架構,使得對於Lucene擴展的學習難度降低,方便擴充新功能。
(4)設計了獨立於語言和文件格式的文本分析接口,索引器通過接受Token流完成索引文件的創立,用戶擴展新的語言和文件格式,只需要實現文本分析的接口。
(5)已經默認實現了一套強大的查詢引擎,用戶無需自己編寫代碼即使系統可獲得強大的查詢能力,Lucene的查詢實現中默認實現了布爾操作、模糊查詢(Fuzzy Search[11])、分組查詢等等。
 
    面對已經存在的商業全文檢索引擎,Lucene也具有相當的優勢。首先,它的開發源代碼發行方式(遵守Apache Software License[12]),在此基礎上程序員不僅僅可以充分的利用Lucene所提供的強大功能,而且可以深入細緻的學習到全文檢索引擎製作技術和麪相對象編程的實踐,進而在此基礎上根據應用的實際情況編寫出更好的更適合當前應用的全文檢索引擎。在這一點上,商業軟件的靈活性遠遠不及Lucene。其次,Lucene秉承了開放源代碼一貫的架構優良的優勢,設計了一個合理而極具擴充能力的面向對象架構,程序員可以在Lucene的基礎上擴充各種功能,比如擴充中文處理能力,從文本擴充到HTML、PDF[13]等等文本格式的處理,編寫這些擴展的功能不僅僅不復雜,而且由於Lucene恰當合理的對系統設備做了程序上的抽象,擴展的功能也能輕易的達到跨平臺的能力。最後,轉移到apache軟件基金會後,藉助於apache軟件基金會的網絡平臺,程序員可以方便的和開發者、其它程序員交流,促成資源的共享,甚至直接獲得已經編寫完備的擴充功能。最後,雖然Lucene使用Java語言寫成,但是開放源代碼社區的程序員正在不懈的將之使用各種傳統語言實現(例如.net framework[14]),在遵守Lucene索引文件格式的基礎上,使得Lucene能夠運行在各種各樣的平臺上,系統管理員可以根據當前的平臺適合的語言來合理的選擇。
 
 
作爲中國人民大學信息學院99級本科生的一個畢業設計項目,我們對Lucene進行了深入的研究,包括系統的結構,索引文件結構,各個部分的實現等等。並且我們啓動了cLucene項目,做爲一個Lucene的C++語言的重新實現,以期望帶來更快的速度和更加廣泛的應用範圍。我們先分析了系統結構,文件結構,然後在研究各個部分的具體實現的同時開始進行的cLucene實現。限於時間的限制,到本文完成爲止,cLucene項目並沒有完成,對於Lucene的具體實現部分也僅僅完成到了索引引擎部分。
 
接下來的部分,本文將對Lucene的系統結構、文件結構、索引引擎部分做一個徹底的分析。以期望提供對Lucene全文檢索引擎的系統架構和部分程序實現的清晰的瞭解。cLucene項目則作爲一個開放源代碼的項目,繼續進行的開發。
 
       有關cLucene項目的一些信息:
n         開發語言:ISO C++[15],STLport 4.5.3[16],OpenTop 1.1[17]
n         目標平臺:Win32,POSIX
n         授權協議:GNU General Public License (GPL)[18]
 
 
第二節 Lucene系統結構分析
 
 
Lucene作爲一個優秀的全文檢索引擎,其系統結構具有強烈的面向對象特徵。首先是定義了一個與平臺無關的索引文件格式,其次通過抽象將系統的核心組成部分設計爲抽象類,具體的平臺實現部分設計爲抽象類的實現,此外與具體平臺相關的部分比如文件存儲也封裝爲類,經過層層的面向對象式的處理,最終達成了一個低耦合高效率,容易二次開發的檢索引擎系統。
 
以下將討論Lucene系統的結構組織,並給出系統結構與源碼組織圖:
 
    從圖中我們清楚的看到,Lucene的系統由基礎結構封裝、索引核心、對外接口三大部分組成。其中直接操作索引文件的索引核心又是系統的重點。Lucene的將所有源碼分爲了7個模塊(在java語言中以包即package來表示),各個模塊所屬的系統部分也如上圖所示。需要說明的是org.apache.lucene.queryPaser是做爲org.apache.lucene.search的語法解析器存在,不被系統之外實際調用,因此這裏沒有當作對外接口看待,而是將之獨立出來。
 
    從面象對象的觀點來考察,Lucene應用了最基本的一條程序設計準則:引入額外的抽象層以降低耦合性。首先,引入對索引文件的操作org.apache.lucene.store的封裝,然後將索引部分的實現建立在(org.apache.lucene.index)其之上,完成對索引核心的抽象。在索引核心的基礎上開始設計對外的接口org.apache.lucene.search與org.apache.lucene.analysis。在每一個局部細節上,比如某些常用的數據結構與算法上,Lucene也充分的應用了這一條準則。在高度的面向對象理論的支撐下,使得Lucene的實現容易理解,易於擴展。
 
    Lucene在系統結構上的另一個特點表現爲其引入了傳統的客戶端服務器結構以外的的應用結構。Lucene可以作爲一個運行庫被包含進入應用本身中去,而不是做爲一個單獨的索引服務器存在。這自然和Lucene開放源代碼的特徵分不開,但是也體現了Lucene在編寫上的本來意圖:提供一個全文索引引擎的架構,而不是實現。
 
 
理解Lucene系統結構的另一個方式是去探討其中數據流的走向,並以此摸清楚Lucene系統內部的調用時序。在此基礎上,我們能夠更加深入的理解Lucene的系統結構組織,以方便以後在Lucene系統上的開發工作。這部分的分析,是深入Lucene系統的鑰匙,也是進行重寫的基礎。
 
   我們來看看在Lucene系統中的主要的數據流以及它們之間的關係圖:

索引查找邏輯
 
索引構建邏輯
 
查詢語句語法分析邏輯
 
詞法分析邏輯
 
流程圖:文檔: 查詢結果流程圖:順序訪問存儲器: 查詢語句
存儲抽象
 
流程圖:多文檔: 索引文件流程圖:多文檔: 被索引文件
 
    圖2.2很好的表明了Lucene在內部的數據流組織情況,並且沿着數據流的方向我們也可以對與Lucene內部的執行時序有一個清楚的瞭解。現在將圖中的涉及到的流的類型與各個邏輯對應系統的相關部分的關係說明一下。
 
    圖中共存在4種數據流,分別是文本流、token流、字節流與查詢語句對象流。文本流表示了對於索引目標和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實際的實現中,Lucene中的文本流採用了UCS-2[19]作爲編碼,以達到適應多種語言文字的處理的目的。Token流是Lucene內部所使用的概念,是對傳統文字中的詞的概念的抽象,也是Lucene在建立索引時直接處理的最小單位;簡單的講Token就是一個詞和所在域值的組合,後面在敘述文件格式時也將繼續涉及到token,這裏不詳細展開。字節流則是對文件抽象的直接操作的體現,通過固定長度的字節(Lucene定義爲8比特位長,後面文件格式將詳細敘述)流的處理,將文件操作解脫出來,也做到了與平臺文件系統的無關性。查詢語句對象流則是僅僅在查詢語句解析時用到的概念,它對查詢語句抽象,通過類的繼承結構反映查詢語句的結構,將之傳送到查找邏輯來進行查找的操作。
 
    圖中的涉及到了多種邏輯,基本上直接對應於系統某一模塊,但是也有跨模塊調用的問題發生,這是因爲Lucene的重用程度非常好,因此很多實現直接調用了以前的工作成果,這在某種程度上其實是加強了模塊耦合性,但是也是爲了避免系統的過於龐大和不必要的重複設計的一種折衷體現。詞法分析邏輯對應於org.apache.lucene.analysis部分。查詢語句語法分析邏輯對應於org.apache.lucene.queryParser部分,並且調用了org.apache.lucene.analysis的代碼。查詢結束之後向評分排序邏輯輸出token流,繼而由評分排序邏輯處理之後給出文本流的結果,這一部分的實現也包含在了org.apache.lucene.search中。索引構建邏輯對應於org.apache.lucene.index部分。索引查找邏輯則主要是org.apache.lucene.search,但是也大量的使用了org.apache.lucene.index部分的代碼和接口定義。存儲抽象對應於org.apache.lucene.store。沒有提到的模塊則是做爲系統公共基礎設施存在。
 
 
通過以上的系統結構分析和數據流分析,我們已經很清楚的瞭解了Lucene的系統的結構特徵。在此基礎上,我們可以通過擴充Lucene系統來完成一個完備的全文檢索引擎,緊接着還可以在全文檢索引擎的基礎上構建各種應用系統。鑑於本文的目的並不在此,以下我們只是略爲敘述一下相關的步驟,從而給出應用開發的一些思路。
 
首先,我們需要的是按照目標語言的詞法結構來構建相應的詞法分析邏輯,實現Lucene在org.apache.lucene.analysis中定義的接口,爲Lucene提供目標系統所使用的語言處理能力。Lucene默認的已經實現了英文和德文的簡單詞法分析邏輯(按照空格分詞,並去除常用的語法詞,如英語中的is,am,are等等)。在這裏,主要需要參考實現的接口在org.apache.lucene.analysis中的Analyzer.java和Tokenizer.java中定義,Lucene提供了很多英文規範的實現樣本,也可以做爲實現時候的參考資料。其次,需要按照被索引的文件的格式來提供相應的文本分析邏輯,這裏是指除開詞法分析之外的部分,比如HTML文件,通常需要把其中的內容按照所屬於域分門別類加入索引,這就需要從org.apache.lucene.document中定義的類document繼承,定義自己的HTMLDocument類,然後就可以將之交給org.apache.lucene.index模塊來寫入索引文件。完成了這兩步之後,Lucene全文檢索引擎就基本上完備了。這個過程可以用下圖表示:
 
    當然,上面所示的僅僅只是對於Lucene的基本擴充過程,它將Lucene由不完備的變成完備的(尤其是對於非英語的語言檢索)。除此之外我們還可以在很多方面對Lucene進行改造。第一個方面即爲按照文檔索引的域,比如標題,作者之類的信息對返回的查詢結果排序,這即需要改造Lucene的評分排序邏輯。默認的,Lucene採用其內部的相關性方法來處理評分和排序,我們可以根據需要改變它。遺憾的是,這部分Lucene並沒有做到如同擴充詞法解析和文檔類型那樣的條理清晰,沒有留下很好的接口,因此需要仔細的分析其源代碼的實現,自行擴充等等。其他的方面,比如改進其索引的效率,改進其返回結果時候的緩衝機制等等,都是加強Lucene系統的方面,在此也不再敘述。
 
    完成了Lucene系統,之後就可以開始考慮其上的應用系統開發。如果應用系統也使用java語言開發,那麼Lucene系統能夠方便的嵌入到整個系統中去,作爲一個API集來調用。這個過程十分簡單,以下便是一個示例程序,配合註釋理解起來很容易。

圖 2.4 Lucene應用代碼示例
 
文本框: public class IndexFiles {//使用方法:: IndexFiles [索引輸出目錄] [索引的文件列表] ...public static void main(String[] args) throws Exception {String indexPath = args[0];IndexWriter writer;//用指定的語言分析器構造一個新的寫索引器(第3個參數表示是否爲追加索引)writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);for (int i=1; i<args.length; i++) {System.out.println("Indexing file " + args[i]);InputStream is = new FileInputStream(args[i]);//構造包含2個字段Field的Document對象//一個是路徑path字段,不索引,只存儲//一個是內容body字段,進行全文索引,並存儲Document doc = new Document();doc.add(Field.UnIndexed("path", args[i]));doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));//將文檔寫入索引writer.addDocument(doc);is.close();};//關閉寫索引器writer.close();}}
 
    或者,Lucene全文檢索引擎也可作爲服務器程序啓動,但是這就需要用戶自行擴充其他應用與Lucene的接口。這個可以通過傳統的包裝方式,比如客戶服務器結構,或者採用現在流行的Web方式。諸如此類的應用方案,本文也不再繼續敘述。參考Lucene的項目網站中的用戶郵件列表能找到更多的信息。
 
 
第三節 Lucene索引文件格式分析
 
一、             Lucene源碼實現分析的說明
 
通過以上對Lucene系統結構的分析,我們已經大致的清楚了Lucene系統的組成,以及在Lucene系統之上的開發步驟。接下來,我們試圖來分析Lucene項目(採用Lucene 1.2版本)的源碼實現,考察其實現的細節。這不僅僅是我們嘗試用C++語言重新實現Lucene的必須工作,也是進一步做Lucene開發工作的必要準備。因此,這一部分所涉及到的內容,對於Lucene上的應用開發也是有價值的,尤其是本部分所做的文件格式分析。
 
    由於本文建立在我們的畢設項目之上,且同時我們需要實現cLucene項目,因此很遺憾的我們並沒有完全的完成Lucene的所有源碼實現的分析工作。接下來的部分,我們將涉及的部分爲Lucene文件格式分析,Lucene中的存儲抽象模塊分析,以及Lucene中的索引構建邏輯模塊分析。這一部分,我們主要涉及到的是文件格式分析與存儲抽象模塊分析。
 
 
在Lucene的web站點上,有關於Lucene的文件格式的規範,其規定了Lucene的文件格式採取的存儲單位、組織結構、命名規範等等內容,但是它僅僅是一個規範說明,並沒有從實現者角度來衡量這個規範的實現。因此,我們以下的內容,結合了我們自己的分析與文件格式的定義規範,以期望給出一個更加清晰的文件格式說明。具體的文檔規範可以參考後面的文獻2。
 
    首先在Lucene的文件格式中,以字節爲基礎,定義瞭如下的數據類型:
 
3.1 Lucene文件格式中定義的數據類型
數據類型
所佔字節長度(字節)
說明
Byte
1
基本數據類型,其他數據類型以此爲基礎定義
UInt32
4
32位無符號整數,高位優先
UInt64
8
64位無符號整數,高位優先
VInt
不定,最少1字節
動態長度整數,每字節的最高位表明還剩多少字節,每字節的低七位表明整數的值,高位優先。可以認爲值可以爲無限大。其示例如下
字節1
字節2
字節3
0
00000000
 
 
1
00000001
 
 
2
00000010
 
 
127
01111111
 
 
128
10000000
00000001
 
129
10000001
00000001
 
130
10000010
00000001
 
16383
10000000
10000000
00000001
16384
10000001
10000000
00000001
16385
10000010
10000000
00000001
 
Chars
不定,最少1字節
採用UTF-8編碼[20]Unicode字符序列
String
不定,最少2字節
VIntChars組成的字符串類型,VInt表示Chars的長度,Chars則表示了String的值
 
    以上的數據類型就是Lucene索引文件格式中用到的全部數據類型,由於它們都以字節爲基礎定義而來,因此保證了是平臺無關,這也是Lucene索引文件格式平臺無關的主要原因。接下來我們看看Lucene索引文件的概念組成和結構組成。
    以上就是Lucene的索引文件的概念結構。Lucene索引index由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個文檔由若干的域(field)組成,每一個域由若干的項(term)組成。項是最小的索引概念單位,它直接代表了一個字符串以及其在文件中的位置、出現次數等信息。域是一個關聯的元組,由一個域名和一個域值組成,域名是一個字串,域值是一個項,比如將“標題”和實際標題的項組成的域。文檔是提取了某個文件中的所有信息之後的結果,這些組成了段,或者稱爲一個子索引。子索引可以組合爲索引,也可以合併爲一個新的包含了所有合併項內部元素的子索引。我們可以清楚的看出,Lucene的索引結構在概念上即爲傳統的倒排索引結構[21]
 
    從概念上映射到結構中,索引被處理爲一個目錄(文件夾),其中含有的所有文件即爲其內容,這些文件按照所屬的段不同分組存放,同組的文件擁有相同的文件名,不同的擴展名。此外還有三個文件,分別用來保存所有的段的記錄、保存已刪除文件的記錄和控制讀寫的同步,它們分別是segments,deletable和lock文件,都沒有擴展名。每個段包含一組文件,它們的文件擴展名不同,但是文件名均爲記錄在文件segments中段的名字。讓我們看如下的結構圖3.2。

項集合信息
 
項位置
 
流程圖:文檔: segment1.frq
項頻數
 
被刪除文檔
 
流程圖:文檔: segment1.del
標準化因子
 
流程圖:文檔: segment1.tis流程圖:文檔: segment1.tii流程圖:文檔: segment1.prx流程圖:文檔: segment1.nrm
圖 3.2 Lucene索引文件結構組成
 
segment1所含文件
 
項字典
 
域值存儲表
 
域集合信息
 
流程圖:文檔: segment1.fdt流程圖:文檔: segment1.fdx流程圖:文檔: segment1.fnm
index
 
流程圖:文檔: segments流程圖:文檔: deletable流程圖:文檔: lock流程圖:多文檔: segment1
 
    關於圖3.2中的各個文件具體的內部格式,在參考文獻3中,均可以找到詳細的說明。接下來我們從宏觀關係上說明一下這些文件組成。在這些宏觀上的關係理清楚之後,仔細閱讀參考文獻3,即可清楚的明白具體的Lucene文件格式。
 
    每個段的文件中,主要記錄了兩大類的信息:域集合與項集合。這兩個集合中所含有的文件在圖3.2中均有表明。由於索引信息是靜態存儲的,域集合與項集合中的文件組採用了一種類似的存儲辦法:一個小型的索引文件,運行時載入內存;一個對應於索引文件的實際信息文件,可以按照索引中指示的偏移量隨機訪問;索引文件與信息文件在記錄的排列順序上存在隱式的對應關係,即索引文件中按照“索引項1、索引項2…”排列,則信息文件則也按照“信息項1、信息項2…”排列。比如在圖3.2所示文件中,segment1.fdx與segment1.fdt之間,segment1.tii與segment1.tis、segment1.prx、segment1.frq之間,都存在這樣的組織關係。而域集合與項集合之間則通過域的在域記錄文件(比如segment1.fnm)中所記錄的域記錄號維持對應關係,在圖3.2中segment1.fdx與segment1.tii中就是通過這種方式保持聯繫。這樣,域集合和項集合不僅僅聯繫起來,而且其中的文件之間也相互聯繫起來。此外,標準化因子文件和被刪除文檔文件則提供了一些程序內部的輔助設施(標準化因子用在評分排序機制中,被刪除文檔是一種僞刪除手段)。這樣,整個段的索引信息就通過這些文檔有機的組成。
 
    以上所闡述的,就是Lucene所採用的索引文件格式。基本上而言,它是一個倒排索引,但是Lucene在文件的安排上做了一些努力,比如使用索引/信息文件的方式,從文件安排的形式上提高查找的效率。這是一種數據庫之外的處理方法,其有其優點(格式平臺獨立、速度快),也有其缺點(獨立性帶來的共享訪問接口問題等等),具體如何衡量兩種方法之間的利弊,本文這裏就不討論了。
 
 
分析完索引文件格式,我們接下來應該着手對存儲抽象也就是org.apache.lucenestore中的源碼做一些分析。我們先不着急分析這部分,而是分析圖2.1中基礎結構封裝那一部分,因爲這是整個系統的基石,然後我們在下一部分再來分析存儲抽象。
 
    基礎結構封裝,或者基礎類,由org.apache.lucene.util和org.apache.lucene.document兩個包組成,前者定義了一些常量和優化過的常用的數據結構和算法,後者則是對於文檔(document)和域(field)概念的一個類定義。以下我們用列表的方式來分析這些封裝類,指出其要點。
 
3.2 基礎類包org.apache.lucene.util
說明
Arrays
一個關於數組的排序方法的靜態類,提供了優化的基於快排序的排序方法sort
BitVector
C/C++語言中位域的java實現品,但是加入了序列化能力
Constants
常量靜態類,定義了一些常量
PriorityQueue
一個優先隊列的抽象類,用於後面實現各種具體的優先隊列,提供常數時間內的最小元素訪問能力,內部實現機制是哈析表和堆排序算法
 
3.3 基礎類包org.apache.lucene.document
說明
Document
是文檔概念的一個實現類,每個文檔包含了一個域表(fieldList),並提供了一些實用的方法,比如多種添加域的方法、返回域表的迭代器的方法
Field
是域概念的一個實現類,每個域包含了一個域名和一個值,以及一些相關的屬性
DateField
提供了一些輔助方法的靜態類,這些方法將javaDateTime數據類型和String相互轉化
 
總的來說,這兩個基礎類包中含有的類都比較簡單,通過閱讀源代碼,可以很容易的理解,因此這裏不作過多的展開。
 
 
有了上面的知識,我們接下來來分析存儲抽象部分,也就是org.apache.lucene.store包。存儲抽象是唯一能夠直接對索引文件存取的包,因此其主要目的是抽象出和平臺文件系統無關的存儲抽象,提供諸如目錄服務(增、刪文件)、輸入流和輸出流。在分析其實現之前,首先我們看一下UML[22]圖。
圖 3.3 存儲抽象實現UML圖(一)
圖 3.4 存儲抽象實現UML圖(二)
圖 3.4 存儲抽象實現UML圖(三)
 
    圖3.2到3.4展示了整個org.apache.lucene.store中主要的繼承體系。共有三個抽象類定義:Directory、InputStream和OutputStrem,構成了一個完整的基於抽象文件系統的存取體系結構,在此基礎上,實作出了兩個實現品:(FSDirectory,FSInputStream,FSOutputStream)和(RAMDirectory,RAMInputStream和RAMOutputStream)。前者是以實際的文件系統做爲基礎實現的,後者則是建立在內存中的虛擬文件系統。前者主要用來永久的保存索引文件,後者的作用則在於索引操作時是在內存中建立小的索引,然後一次性的輸出合併到文件中去,這一點我們在後面的索引邏輯部分能夠看到。此外,還定以了org.apache.lucene.store.lock和org.apache.lucene.store.with兩個輔助內部實現的類用在實現Directory方法的makeLock的時候,以在鎖定索引讀寫之前來讓客戶程序做一些準備工作。
 
    (FSDirectory,FSInputStream,FSOutputStream)的內部實現依託於java語言中的io類庫,只是簡單的做了一個外部邏輯的包裝。這當然要歸功於java語言所提供的跨平臺特性,同時也帶了一些隱患:文件存取的效率提升需要依耐於文件類庫的優化。如果需要繼續優化文件存取的效率,應該還提供一個文件與目錄的抽象,以根據各種文件系統或者文件類型來提供一個優化的機會。當然,這是應用開發者所不需要關係的問題。
 
    (RAMDirectory,RAMInputStream和RAMOutputStream)的內部實現就比較直接了,直接採用了虛擬的文件RAMFile類(定義於文件RAMDirectory.java中)來表示文件,目錄則看作一個String與RAMFile對應的關聯數組。RAMFile中採用數組來表示文件的存儲空間。在此的基礎上,完成各項操作的實現,就形成了基於內存的虛擬文件系統。因爲在實際使用時,並不會牽涉到很大字節數量的文件,因此這種設計是簡單直接的,也是高效率的。
 
    這部分的實現在理清楚繼承體系後,相當的簡單。因此接下來的部分,我們可以通過直接閱讀源代碼解決。接下來我們看看這個部分的源代碼如何在實際中使用的。
 
    一般來說,我們使用的是抽象類提供的接口而不是實際的實現類本身。在實現類中一般都含有幾個靜態函數,比如createFile,它能夠返回一個OutputStream接口,或者openFile,它能夠返回一個InputStream接口,利用這些接口之中的方法,比如writeString,writeByte等等,我們就能夠在抽象的層次上處理Lucene定義的數據類型的讀寫。簡單的說,Lucene中存儲抽象這部分設計時採用了工廠模式(Factory parttern)[23]。我們利用靜態類的方法也就是工廠來創建對象,返回接口,通過接口來執行操作。
 
 
這一部分詳細的說明了Lucene系統中所採用的索引文件格式、一些基礎類和存儲抽象。接下來我們來敘述一下我們在項目cLucene中重新實現這些結構時候的一些考慮。
 
    cLucene徹底的遵守了Lucene所定義的索引文件格式,這是Lucene對於各個兼容系統的基本要求。在此基礎上,cLucene系統和Lucene系統才能夠共享索引文件數據。或者說,cLucene生成的索引文件和Lucene生成的索引文件完全等價。
 
    在基礎類問題上,cLucene同樣封裝了類似的結構。我們同樣列表描述,請和前面的表3.2與3.3對照比較。
3.4 基礎類包cLucene::util
說明
Arrays
沒有實現,直接利用了STL庫中的快排序算法實現
BitVector
C/C++語言版本的實現,與java實現版本類似
Constants
常量靜態類,定義了一些常量,但是與java版本不同的是,這裏主要定義了一些宏
PriorityQueue
這是一個類型定義,直接利用STL庫中的std::priority_queue
 
3.3 基礎類包cLucene::document
說明
Document
C/C++語言版本的實現,與java實現版本類似
Field
C/C++語言版本的實現,與java實現版本類似
DateField
沒有實現,直接利用OpenTop庫中的ot::StringUtil
 
    存儲抽象的實現上,也同樣是類似於java實現。由於我們採用了OpenTop庫,因此同樣得以藉助其中對於文件系統抽象的ot::io包來解決文件系統問題。這部分問題與前面一樣,存在優化的可能。在實現的類層次上、對外接口上,均與java版本的一樣。
 
 
第四節 Lucene索引構建邏輯模塊分析
 
 
這一個部分,我們將分析Lucene中的索引構建邏輯模塊。它與前面介紹的存儲抽象一起構成了Lucene的索引核心部分。無論是對外接口中的查詢,還是分析各種文本以進一步生成索引,都需要直接調用這部分來獲得對索引文件的訪問能力,因此,這部分在系統中至關重要。構建一個高效的、易使用的索引構建邏輯,即是Lucene在這一部分需要達到的目的。
 
    從面向對象的經典思考方式出發來看,我們只需要使用繼承體系來表達圖3.1中的各個概念,就可以通過這個繼承體系來控制索引文件的結構,然後設計合適的永久化方法,以及接受分析token流的操作,即可將索引構建邏輯完成。原理上就是這樣的簡單。由於兩個關鍵的概念document和field都已經在org.apache.lucene.document中當作基礎類定義過了,因此實際上Lucene在這部分需要完善的概念結構還有segment和term。在此基礎上繼續編寫各個邏輯結構的永久化方法,然後提供一個進入的接口方法,即是宣告完成了這個過程。其中永久化的部分,Lucene使用了另外實現一個代理類的方式來實現,即對於某個類X,存在XWriter類和XReader類來負責寫出和讀入的功能;用作永久化功能的類是被永久化的類的友元。
 
    在接下來的分析過程中,我們按照這樣一個思路,以UML圖和對象體系的描述來敘述這部分的設計和實現,然後通過內部的數據流理清楚調用時序。
 
 
 
這部分主要是分析針對項(Term)這個概念所做的設計,包括概念所實際涉及的類、永久化類。首先,我們從圖3.2和閱讀參考文獻3知道,項(Term)所表示的是一個字符串,它擁有域、頻數和位置信息等等屬性。因此,Lucene中設計了兩個類來表示這個概念,如下圖
圖 4.1 UML圖(-)
 
上圖中,有意的突出了類Term和TermInfo中的數據成員,因爲它反映了對於項(Term)這個概念的具體表示。同時上圖中也同時列出了用於永久化項(Term)的代理類TermInfosWriter和TermInfosReader,它們完成永久化的功能,需要注意的是,TermInfosReader內部使用了數組indexTerms和indexInfos來存儲一系列項;而TermInfosWriter則是一個類似於鏈表的結構,通過一個other指向下一個TermInfosWriter,每一個TermInfosWriter只負責本身那個lastTerm和lastTi的永久化工作。這是一個設計上的技巧,通過批量讀取(或者稱爲緩衝的方式)來獲得讀入時候的效率優化;而通過一個鏈表式的、各負其責的方式,來獲得寫出時候的設計簡化。
 
項(term)這部分的設計中,還有一些重要的接口和類,我們先介紹如下,同樣我們也先展示UML圖
圖 4.2 UML圖(二)
 
圖4.2中,我們看到三個類:TermEnum、TermDocs與TermPositions,第一個是抽象類,後兩個都是接口。TermEnum的設計主要用在後面Segment和Document等等的實現中,以提供枚舉其中每一個項(Term)的能力。TermDocs是一個接口,用來繼承以提供返回<document, frequency>值對的能力,通過這個接口就可以獲得某個項(Term)在某個文檔中出現的頻數。TermPositions則是在TermDocs上的擴展,將項(Term)在文檔中的位置信息也表示出來。TermDocs(TermPositions)接口的使用方式類似於java中的Enumration接口,即通過next方法跳轉,通過doc,freq等方法獲得當前的屬性值。
 
2. 域(Field)
 
由於Field的基本概念在org.apache.lucene.document中已經做了定義,因此在這部分主要是針對項文件(.fnm文件、.fdx文件、.fdt文件)所需要的信息再來設計一些類。
圖 4.3 UML圖(三)
 
圖 4.3中展示的,就是表示與域(Field)所關聯的屬性信息的類。其中isIndexed表示的這個域的值是否被索引過,即值是否被分詞然後索引;另外兩個屬性所表示的意思則很明顯:一個是域的名字,一個是域的編號。
 
接下來我們來看關於域表和存取邏輯的UML圖。
圖 4.4 UML圖(四)
FieldInfos即爲域表的概念表示,內部採用了冗餘的方式以獲取在通過域的編號訪問或者通過域的名字來訪問時候的高效率。FieldsReader與FieldsWriter則分別是寫出和讀入的代理類。在功能和實現上,這兩個類都比較簡單。至於FieldInfos中採用的冗餘方式,則是基於域的數目相對比較少而做出的一種折衷處理。
 
3. 文檔(document)
 
文檔(document)同樣也是在org.apache.lucene.document中定義過的結構。由於對於這部分比較重要,我們也來看看其UML圖。
圖 4.5 UML圖(五)
 
在圖4.5中我們看到,Document的設計基本上沿用了鏈表的處理方法。左邊的Document類作爲一個數據外包類,用來提供對於內部結構DocumentFieldList的增加刪除訪問操作等等。DocumentFieldList纔是實際上的數據存儲單位,它用了鏈表的處理方法,直接指向一個當前的Field對象和下一個DocumentFieldList對象,這個與前面的類似。爲了能夠逐個訪問鏈表中的節點,還設計了DocumentFieldEnumeration枚舉類。
圖 4.6 UML圖(六)
    實際上定義於org.apache.lucene.index中的有關於Document的就是永久化的代理類。在圖4.6中給出了其UML圖。需要說明的是爲什麼沒有出現讀入的方法:這個方法已經隱含在圖4.5中Document類中的add方法中了,結合圖2.4中的程序代碼段,我們就能夠清楚的理解這種設計。
 
4. 段(segment)
 
段(Segment)這一部分設計的比較特殊,在實現簡單的對象結構之上,還特意的設計了用於段之間合併的類。接下來,我們仍然採取對照UML分析的方式逐個敘述。接下來我們看Lucene中如何表示段這個概念。
圖 4.7 UML圖(七)
Lucene定義了一個類SegmentInfo用來表示每一個段(Segment)的信息,包括名字(name)、含有的文檔的數目(docCount)和段所位於的目錄的位置(dir)。根據索引文件中的段的意義,有了這三點,就能唯一確定一個段了。SegmentInfos這個類則是用來表示一個段的鏈表(從標準的java.util.Vector繼承而來),實際上,也就是索引(index)的意思了。需要注意的是,這裏並沒有在SegmentInfo中安插一個文檔(document)的鏈表。這樣做的原因牽涉到Lucene內部對於文檔(相當於一個被索引文件)的處理;Lucene內部採用了賦予文檔編號,給域賦值的方式來處理文檔,即加入的文檔順次編號,以後用文檔號表示文檔,而路徑信息,文件名字等等在以後索引查找需要的屬性,都作爲域存儲下來;因此SegmentInfo中並沒有另外存儲一個文檔(document)的鏈表,對於這些的寫出和讀入,則交給了永久化的代理類來做。
 
圖 4.8 UML圖(八)
圖4.8給出了負責段(segment)的讀入操作的代理類,而負責段(segment)的寫出操作也同樣沒有定義,這些操作都直接實現在了類IndexWriter類中(後面會詳細分析)。段的操作同樣採用了之前的數組或者說是緩衝的處理方式,相關的細節也不在這裏詳細敘述了。
 
然後,針對前面項(term)那部分定義的幾個接口,段(segment)這部分也需要做相應的接口實現,因爲提供直接遍歷訪問段中的各個項的能力對於檢索來說,無疑是十分重要的。即這部分的設計,實際上都是在爲了檢索在服務。
圖 4.9 UML圖(九)
 
圖 4.10 UML圖(十)
圖4.9和圖4.10分別展示了前面項(term)那裏定義的接口是如何在這裏通過繼承實現的。Lucene在處理這部分的時候,也是分成兩部分(Segment與Segments開頭的類)來實現,而且很合理的運用了數組的技法,以及注意了繼承重用。但是細化到局部,終歸是比較簡單的按照語義來獲得結果而已了,因此關於更多的也就不多做分析了,我們完全可以通過閱讀源代碼來解決。
 
接下來所介紹的,就是在Lucene的設計過程中比較特殊的一個部分:段合併類(SegmentMerger)。這首先需要介紹Lucene中的建立索引時的段合併策略。
 
Lucene爲了兼顧建立索引時的效率和讀取索引查找的速度,引入了分小段建立索引的方式,即每一次批量建立索引時,先在內存中的虛擬文件系統中爲每一個文檔單獨建立一個段,然後在輸出的時候將這些段合併之後輸出成爲索引文件,這時僅僅存在一個段。多次建立的索引後,如果想優化索引文件,也可採取合併段的方法,將索引中的段合併成爲一個段。我們來看一下在IndexWriter類中相應的方法的實現,來了解一下這中建立索引的實現。
    對於上面的代碼,我們不做過多註釋了,結合源碼中的註解應該很容易理解。在最後那個mergeSegments函數中,將用到幾個重要的類結構,它們記錄了合併時候的一些重要信息,完成合並時候的工作。接下來,我們來看這幾個類的UML圖。
圖 4.12 UML圖(十一)
從圖4.12中,我們看到Lucene設計一個類SegmentMergeInfo用來保存每一個被合併的段的信息,也保存能夠訪問其內部的接口句柄,也就是說合並時的操作使用這個類作爲對被合併的段的操作代理。類SegmentMergeQueue則設計爲org.apache.lucene.util.PriorityQueue的子類,做爲SegmentMergeInfo的容器類,而且附帶能夠自動排序。SegmentMerger是主要進行操作的類,裏面各個方法環環相扣,分別完成合並各個數據項的問題。
 
5. IndexReader類與IndexWirter類
 
最後剩下的,就是整個索引邏輯部分的使用接口類了。外界通過這兩個類以及文檔(document)類的構造函數調用之,比如圖2.4中的代碼示例所示。下面我們來看一下這部分最後兩個類的UML圖。
圖 4.13 UML圖(十二)
 
    IndexWriter的設計與IndexReader的設計很不相同,前者是一個實現類,而後者是一個抽象類,帶有沒有實現的接口。IndexWriter的主要作用就是接收新加入的文檔(document),然後在內部爲之生成相應的小段,最後再合併並向索引文件中輸出,圖4.11中已經給出了一些實現的代碼。由於Lucene在面向對象上封裝的努力,通過各個構造函數就已經完成了對於各個概念的構造過程,剩下部分的代碼主要是依據各個數組或者是鏈表中的信息,逐個逐個的將信息寫出到相應的文件中去了。IndexReader部分則只是做了接口設計,沒有具體的實現,這個和本部分所完成的主要功能有關:索引構建邏輯。設計這個抽象類的目的是,預先完成一些函數,爲以後的檢索(search)部分的各種形式的IndexReader鋪平道路,也是利用了在同一個包內可以方便訪問其它類的保護變量這個java語言的限制。
 
    到此,在索引構建邏輯部分出現的類我們就分析完畢了,需要說明主要是做的一個宏觀上的組成結構上的分析,並指出一些實現上的要點。具體的實現,由於Lucene的開放源碼而顯得並不是非常的重要,因爲Lucene在做到良好的面相對象設計之後,實際帶來的是局部複雜性的減小,因此某一些單獨的函數或者實現就比較容易編寫,也容易讓人閱讀。本文不再繼續敘述這方面的細節,作爲一個總結,下一個部分我們通過索引構建邏輯的數據流圖的方式,再來理清楚一下索引構建邏輯這部分的調用時序。
 
 
 
從宏觀上明白一個系統的設計,理清楚其中的運行規律,最好的方式應該是通過數據流圖。在分析了各個位於索引構建邏輯部分的類的設計之後,我們接下來就通過分析數據流圖的方式來總結一下。但是由於之前提到的原因:索引讀入部分在這一部分並沒有完全實現,所以我們在數據流圖中主要給出的是索引構建的數據流圖。
 

圖 4.14 索引構建部分的數據流邏輯
 
合併輸出
 
字節流輸入
 
內存文件系統
 
文本框: 順次調用流程圖:多文檔: 索引文件文本框: 索引構建階段
writeNorms寫出標準化因子
 
sortPostingTable排序位置信息
 
writePostings寫出索引信息
 
invertDocument分析文檔
 
addDocument生成小段
 
加入document對象
 
document對象方式傳入
 
文本框: 準備階段
調用
 
生成field對象,根據對象性質不同,爲值賦予String值,或者是Reader
 
生成document對象,調用add方法加入field對象
 
通過java語言的io類以輸入流方式傳入
 
流程圖:多文檔: 被索引文件
 
對於圖4.14中所描述的內容,結合Lucene源代碼中的一些文件看,能夠加深理解。準備階段可以參考demo文件夾中的org.apache.lucene.demo.IndexFiles類和java文件夾中的org.apache.lucene.document文件包。索引構建階段的主要源碼位於java文件夾中org.apache.lucene.index.IndexWriter類,因此這部分可以結合這個類的實現來看。至於內存文件系統,比較複雜,但是這時的邏輯相對簡單,因此也不難理解。
 
    上面的數據流圖十分清楚的勾畫除了整個索引構建邏輯這部分的設計:通過層層嵌套的類結構,在構建時候即分步驟有計劃的生成了索引結構,將之存儲到內存中的文件系統中,然後通過對內存中的文件系統優化合並輸出到實際的文件系統中。
 
 
前面的三個部分,已經完成了分析索引構建邏輯的任務,這裏我們還是有針對性的談談我們這次的畢業設計項目cLucene在這一部分的情況。
 
在實現這部分的時候,爲了將一些java語法中比較特殊的部分,比如內隱類、同步函數、同步對象等等,我們不得不採用了一些比較晦澀和艱深的C++語法,在OpenTop這個類庫所提供的類似於java語言的設施上來實現。這個尤其體現在實現Segment相關類時,爲了處理原來java源代碼中用內隱類實現的Lock文件創建機制的時候,我們不得不定義了大量的cLucene::store::With的子類,併爲之傳入調用類的指針,設置它爲調用類的友元,才得以精確的模擬了原有的語義。陷於我們這次的重寫以移植爲主,系統結構基本上沒有大的變化,不得不產生這種重複而且大量的工作。如果需要改進這中狀況,我們應該考慮按照C++語言的特點來設計索引構建部分的類庫繼承結構,但是很可惜在本文成文之前,時間不允許我們這樣做。
 
來自java語法的特殊性只是我們解決問題的一個方面,我們還需要處理引用的調用方式。由於java語言擁有了垃圾收集機制,因此得以將一切的參數形式看作爲引用,而不考慮其分配與消亡的問題。C++語言並不具備這種機制,它需要程序員自行管理分配空間與銷燬對象的問題。在這裏,我們使用的是來自OpenTop中所引入的計數指針RefPtr<>模板,它能夠模擬指針的語義,並且計算指針被引用的次數,在引用次數爲0時就自動釋放資源:這是一種類似於java語言中引用的方式,不過它顯得更加高效率。我們在cLucene的實現中大量的使用了計數指針模板。
 
    除此之外,我們沒有改變Lucene所定義的索引構建邏輯的結構和語義,我們實現的是一個完全和java版本Lucene兼容的版本。
 
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章