今天項目主管給了我一個全新的項目任務,做一個小型的基於內存的搜索應用,這個項目的目的是爲了適應我們當前一個重點項目的需求-基於tag的快速搜索,雖說我們已經使用了公司的一套搜索引擎,不過其具有通用軟件的一些弊端,比如配置困難,對需求的修改響應不及時,以及效率不夠高.
我本人目前對搜索還是個門外漢,根本不知道該怎樣入手,於是項目主管把我交給了另一個搜索項目組進行學習,呵呵,於是有了我最近的blog主線------搜索開發設計.
搜索該詞現在已是最最熱門詞彙之一,在做這個項目之前我對搜索技術也是心有嚮往,但是總覺得信心不足,感覺自己很難成爲搜索人才的一員,不過這次是趕鴨子上架,不行也得行了,好在今天跟搜索項目主管溝通了一下,我這個項目很簡單(他說的),很容易實現(算法是現成的模塊),我才稍微放下點心,要不今年年終獎就要泡湯了啊.
下面是該位給我說的系統框架:
Index部分
1)segment(分詞,預處理部分)
2)順排表(根據詞典)
3)倒排表
4)生成倒排表文件
順排表(文檔到詞彙的二維表):doc:w1,w2.......
倒排表(詞彙到文檔的二維表):w1:doc1,doc2
search部分
1)segment(search string 分詞)
2)查找所對應的字典id
3)搜索倒排表
4)結果的排序(相關性)和邏輯運算(或 並)
看起來是不難吧,呵呵,那我該怎樣動手了,明天再說!!!!