內存搜索設計實現

 今天項目主管給了我一個全新的項目任務,做一個小型的基於內存的搜索應用,這個項目的目的是爲了適應我們當前一個重點項目的需求-基於tag的快速搜索,雖說我們已經使用了公司的一套搜索引擎,不過其具有通用軟件的一些弊端,比如配置困難,對需求的修改響應不及時,以及效率不夠高.

我本人目前對搜索還是個門外漢,根本不知道該怎樣入手,於是項目主管把我交給了另一個搜索項目組進行學習,呵呵,於是有了我最近的blog主線------搜索開發設計.

搜索該詞現在已是最最熱門詞彙之一,在做這個項目之前我對搜索技術也是心有嚮往,但是總覺得信心不足,感覺自己很難成爲搜索人才的一員,不過這次是趕鴨子上架,不行也得行了,好在今天跟搜索項目主管溝通了一下,我這個項目很簡單(他說的),很容易實現(算法是現成的模塊),我才稍微放下點心,要不今年年終獎就要泡湯了啊.

下面是該位給我說的系統框架:

Index部分

1)segment(分詞,預處理部分)

2)順排表(根據詞典)

3)倒排表

4)生成倒排表文件

順排表(文檔到詞彙的二維表):doc:w1,w2.......

倒排表(詞彙到文檔的二維表):w1:doc1,doc2

search部分

1)segment(search string 分詞)

2)查找所對應的字典id

3)搜索倒排表

4)結果的排序(相關性)和邏輯運算(或 並)

看起來是不難吧,呵呵,那我該怎樣動手了,明天再說!!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章