elasticsearch的分佈式架構原理

對於全文檢索,lucene是目前最流行的搜索庫。以前我們都需要學習使用lucene,基於lucene做相關的開發,學習倒排索引的原理,而現在,我們可以直接使用現成的搜索框架了,因爲現在很多這種搜索框架底層都是直接基於lucene的分佈式搜索引擎,例如elasticsearch就是其中最典型的代表,我們親切的簡稱其爲es

 

現在分佈式搜索基本已經成爲大部分互聯網行業的java體系的標配,其中尤爲流行的就是es,記得我2014年的時候還在用用solr,估計那個時候大部分小夥伴也是一樣。但是最近幾年基本都開始轉向es了。

elasticsearch設計的理念就是分佈式搜索引擎,底層其實還是基於lucene的。

elasticsearch通過在多臺機器上啓動多個進程實例,然後通相同的集羣名稱自動加入同一個集羣組成了一個es集羣。

 

es基礎存儲結構

es中存儲數據的基本單位是索引index,比如我們可以創建訂單索引order_index,然後創建一個type,所有的訂單數據就都寫到這個索引下的type裏面去了,如果硬要和mysql進行類比的話,es中一個索引可以類比爲mysql中的一個庫,類型可以類比爲mysql裏的一張表,因此理論上一個索引index可以對應多個type。不過隨着es版本的更新迭代,一般都是建議一個索引index只對應一個type。es中結構由大到小順序大致爲index -> type -> mapping -> document -> field。

 

比如:一個訂單index裏面一般就是一個訂單type,只存放一種類型。

 

每個type都有一個mapping結構,mapping就是這個type的結構定義,這個結構定義就相當於你在mysql中創建一個表,要定義表結構和字段,以及類型。

 

而在es中mapping就代表了這個type的表結構定義,定義了這個type中每個字段名稱,字段是什麼類型的,然後還有這個字段的各種配置。

 

然後你向index中的type寫的一條數據,就相當於一個document對象,一個document對象就代表了mysql中某個表裏的一行記錄,每個document有多個field,每個field就代表了這個document中的一個字段的值

 

es的分佈式架構

借圖說話

 

 

根據es的分佈式架構,es的每個索引都會被拆分成多個shard分片,每個shard分片只存儲部分數據。

 

然後每個shard分片都是有副本的,其中主分片即primary shard負責寫入數據, primary shard寫入數據之後,會將數據同步到其他幾個副本分片replica shard上去。通過這種副本機制達到es的高可用。

 

es集羣中是有多個節點的,它們會自動選舉一個節點做爲master節點,master節點相當於一個協調管理者,用於維護索引元數據,切換primary shard和replica shard身份之類的。

 

如果master節點宕機了,其餘節點會重新選舉一個節點爲master節點。

 

如果是非master節點宕機了,那麼會由master節點,讓那個宕機節點上的primary shard的身份轉移到其他機器上的replica shard。然後如果該宕機節點修復重啓了之後,master節點會將缺失的replica shard分配過去,同步主從分片數據,讓集羣恢復正常。

 

這就是elasticsearch作爲一個分佈式搜索引擎最基本的一個架構設計,後續會持續探討es搜索和寫入的內部原理和流程,以及實際項目中我們怎麼使用elasticsearch實現全文檢索,聚合統計相關功能。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章