學習筆記-【全文檢索引擎Sphinx】

簡介:

Sphinx是一個基於SQL的全文檢索引擎,可以結合MySQL,PostgreSQL做全文搜索,它可以提供比數據庫本身更專業的搜索功能,使得應用程序更容易實現專業化的全文檢索。Sphinx特別爲一些腳本語言設計搜索API接口,如PHP,Python,Perl,Ruby等,同時爲MySQL也設計了一個存儲引擎插件。

Sphinx 單一索引最大可包含1億條記錄,在1千萬條記錄情況下的查詢速度爲0.x秒(毫秒級)。Sphinx創建索引的速度爲:創建100萬條記錄的索引只需 3~4分鐘,創建1000萬條記錄的索引可以在50分鐘內完成,而只包含最新10萬條記錄的增量索引,重建一次只需幾十秒。

開源中國Sphinx地址:http://www.oschina.net/p/sphinx

Sphinx 官網:http://sphinxsearch.com/

支持中文分詞coreseek 地址:http://www.coreseek.com/


簡介:

首先說明一下coreseek其實就是基於sphinx的中文分詞版本,sphinx本身並沒有提供中文分詞功能,需要自行安裝中文詞庫比較麻煩,coreseek提供了中文分詞功能,提供了完整的官方中文使用文檔。




Sphinx的主要特性包括:

高速索引 (在新款CPU上,近10 MB/秒);
高速搜索 (2-4G的文本量中平均查詢速度不到0.1秒);
高可用性 (單CPU上最大可支持100 GB的文本,100M文檔);
提供良好的相關性排名
支持分佈式搜索;
提供文檔摘要生成;
提供從MySQL內部的插件式存儲引擎上搜索
支持布爾,短語, 和近義詞查詢;
支持每個文檔多個全文檢索域(默認最大32個);
支持每個文檔多屬性;
支持斷詞;
支持單字節編碼與UTF-8編碼;

下一篇講在Windows Server 2012 安裝和測試。

參考內容:http://my.oschina.net/melonol/blog/127438

官網幫助文檔: http://www.coreseek.com/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章