elasticsearch的分佈式架構原理

原創

2020-06-28 20:35

對於全文檢索，lucene是目前最流行的搜索庫。以前我們都需要學習使用lucene,基於lucene做相關的開發，學習倒排索引的原理，而現在，我們可以直接使用現成的搜索框架了，因爲現在很多這種搜索框架底層都是直接基於lucene的分佈式搜索引擎，例如elasticsearch就是其中最典型的代表，我們親切的簡稱其爲es。

現在分佈式搜索基本已經成爲大部分互聯網行業的java體系的標配，其中尤爲流行的就是es，記得我2014年的時候還在用用solr，估計那個時候大部分小夥伴也是一樣。但是最近幾年基本都開始轉向es了。

elasticsearch設計的理念就是分佈式搜索引擎，底層其實還是基於lucene的。

elasticsearch通過在多臺機器上啓動多個進程實例，然後通相同的集羣名稱自動加入同一個集羣組成了一個es集羣。

es基礎存儲結構

es中存儲數據的基本單位是索引index，比如我們可以創建訂單索引order_index，然後創建一個type，所有的訂單數據就都寫到這個索引下的type裏面去了，如果硬要和mysql進行類比的話，es中一個索引可以類比爲mysql中的一個庫，類型可以類比爲mysql裏的一張表，因此理論上一個索引index可以對應多個type。不過隨着es版本的更新迭代，一般都是建議一個索引index只對應一個type。es中結構由大到小順序大致爲index -> type -> mapping -> document -> field。

比如：一個訂單index裏面一般就是一個訂單type，只存放一種類型。

每個type都有一個mapping結構，mapping就是這個type的結構定義，這個結構定義就相當於你在mysql中創建一個表，要定義表結構和字段，以及類型。

而在es中mapping就代表了這個type的表結構定義，定義了這個type中每個字段名稱，字段是什麼類型的，然後還有這個字段的各種配置。

然後你向index中的type寫的一條數據，就相當於一個document對象，一個document對象就代表了mysql中某個表裏的一行記錄，每個document有多個field，每個field就代表了這個document中的一個字段的值

es的分佈式架構

借圖說話

根據es的分佈式架構，es的每個索引都會被拆分成多個shard分片，每個shard分片只存儲部分數據。

然後每個shard分片都是有副本的，其中主分片即primary shard負責寫入數據， primary shard寫入數據之後，會將數據同步到其他幾個副本分片replica shard上去。通過這種副本機制達到es的高可用。

es集羣中是有多個節點的，它們會自動選舉一個節點做爲master節點，master節點相當於一個協調管理者，用於維護索引元數據，切換primary shard和replica shard身份之類的。

如果master節點宕機了，其餘節點會重新選舉一個節點爲master節點。

如果是非master節點宕機了，那麼會由master節點，讓那個宕機節點上的primary shard的身份轉移到其他機器上的replica shard。然後如果該宕機節點修復重啓了之後，master節點會將缺失的replica shard分配過去，同步主從分片數據，讓集羣恢復正常。

這就是elasticsearch作爲一個分佈式搜索引擎最基本的一個架構設計，後續會持續探討es搜索和寫入的內部原理和流程，以及實際項目中我們怎麼使用elasticsearch實現全文檢索，聚合統計相關功能。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

elasticsearch的分佈式架構原理

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

elasticsearch的分佈式架構原理

mysql添加外鍵約束失敗cannot add foreign key constraint

HBuilder、HBuilderX連接夜神模擬器

大話“用戶註冊激活，忘記密碼”發送郵件功能

elasticsearch搜素關鍵字自動補全(suggest)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結