全文檢索 - 1、技術選型和架構設計

1. 相關概念

  • 全文檢索
    一種將文件中或者數據庫中所有文本與檢索項匹配的文字資料檢索方法,對全文數據的檢索。

  • Lucene
    Lucene 是一個 JAVA 搜索類庫,它本身並不是一個完整的解決方案,需要額外的開發工作。

  • Elasticsearch
    ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,是最受歡迎的企業搜索引擎。

  • Solr
    Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成,以及富文本(如Word、PDF)的處理。Solr是高度可擴展的,並提供了分佈式搜索和索引複製。

2. 背景

1.大數據背景下數據量的積累與數據應用疲軟矛盾一直存在,傳統企業的數據存儲存在以下問題:
問題1:由於模型受限,傳統企業的數據大多存儲在關係型數據庫mysql、Oracle,非結構化數據存儲在MongoDB中。數據量也能積累到TB甚至PB級。
只能進行結構化的檢索類似“ select * from table where col like ‘%xxx%’ ”顯然不能滿足紛繁複雜的業務需求。
問題2:數據是死數據,數據的BI可視化展示需要專業團隊開發,但不能得到很好的分析效果。
以上問題形成了數據量累計到一定量,但數據得不到很好的應用分析之間的矛盾。

2.在保持數據庫不動的同時,新增全文檢索,更好、更快的從億萬數據中獲取檢索服務。不想拋棄原有數據存儲結構,想在原有數據存儲的基礎上新增全文搜索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章