Ubuntu 12.04 Ceph分佈式文件系統之概述

一、 ceph文件系統概述

Ceph 最初是一項關於存儲系統的 PhD 研究項目，由 Sage Weil 在 University of California, Santa Cruz（UCSC）實施。

Ceph 是開源分佈式存儲，也是主線 Linux 內核（2.6.34）的一部分。

1) Ceph 架構

Ceph 生態系統可以大致劃分爲四部分（見圖 1）：客戶端（數據用戶），元數據服務器（緩存和同步分佈式元數據），一個對象存儲集羣（將數據和元數據作爲對象存儲，執行其他關鍵職能），以及最後的集羣監視器（執行監視功能）。

圖 1 Ceph 生態系統

如圖 1 所示，客戶使用元數據服務器，執行元數據操作（來確定數據位置）。元數據服務器管理數據位置，以及在何處存儲新數據。值得注意的是，元數據存儲在一個存儲集羣（標爲 “元數據 I/O”）。實際的文件 I/O 發生在客戶和對象存儲集羣之間。這樣一來，更高層次的 POSIX 功能（例如，打開、關閉、重命名）就由元數據服務器管理，不過 POSIX 功能（例如讀和寫）則直接由對象存儲集羣管理。

另一個架構視圖由圖 2 提供。一系列服務器通過一個客戶界面訪問 Ceph 生態系統，這就明白了元數據服務器和對象級存儲器之間的關係。分佈式存儲系統可以在一些層中查看，包括一個存儲設備的格式（Extent and B-tree-based Object File System [EBOFS] 或者一個備選），還有一個設計用於管理數據複製，故障檢測，恢復，以及隨後的數據遷移的覆蓋管理層，叫做 Reliable Autonomic Distributed Object Storage（RADOS）。最後，監視器用於識別組件故障，包括隨後的通知。

圖 2 ceph架構視圖

2) Ceph 組件

瞭解了 Ceph 的概念架構之後，您可以挖掘到另一個層次，瞭解在 Ceph 中實現的主要組件。Ceph 和傳統的文件系統之間的重要差異之一就是，它將智能都用在了生態環境而不是文件系統本身。

圖 3 顯示了一個簡單的 Ceph 生態系統。Ceph Client 是 Ceph 文件系統的用戶。Ceph Metadata Daemon 提供了元數據服務器，而 Ceph Object Storage Daemon 提供了實際存儲（對數據和元數據兩者）。最後，Ceph Monitor 提供了集羣管理。要注意的是，Ceph 客戶，對象存儲端點，元數據服務器（根據文件系統的容量）可以有許多，而且至少有一對冗餘的監視器。那麼，這個文件系統是如何分佈的呢？

圖 3簡單的 Ceph 生態系統

3) Ceph 客戶端

因爲 Linux 顯示文件系統的一個公共界面（通過虛擬文件系統交換機 [VFS]），Ceph 的用戶透視圖就是透明的。管理員的透視圖肯定是不同的，考慮到很多服務器會包含存儲系統這一潛在因素（要查看更多創建 Ceph 集羣的信息，見參考資料部分）。從用戶的角度看，他們訪問大容量的存儲系統，卻不知道下面聚合成一個大容量的存儲池的元數據服務器，監視器，還有獨立的對象存儲設備。用戶只是簡單地看到一個安裝點，在這點上可以執行標準文件 I/O。

Ceph 文件系統 — 或者至少是客戶端接口 — 在 Linux 內核中實現。值得注意的是，在大多數文件系統中，所有的控制和智能在內核的文件系統源本身中執行。但是，在 Ceph 中，文件系統的智能分佈在節點上，這簡化了客戶端接口，併爲 Ceph 提供了大規模（甚至動態）擴展能力。

Ceph 使用一個有趣的備選，而不是依賴分配列表（將磁盤上的塊映射到指定文件的元數據）。Linux 透視圖中的一個文件會分配到一個來自元數據服務器的 inode number（INO），對於文件這是一個唯一的標識符。然後文件被推入一些對象中（根據文件的大小）。使用 INO 和 object number（ONO），每個對象都分配到一個對象 ID（OID）。在 OID 上使用一個簡單的哈希，每個對象都被分配到一個放置組。放置組（標識爲 PGID）是一個對象的概念容器。最後，放置組到對象存儲設備的映射是一個僞隨機映射，使用一個叫做 Controlled Replication Under Scalable Hashing（CRUSH）的算法。這樣一來，放置組（以及副本）到存儲設備的映射就不用依賴任何元數據，而是依賴一個僞隨機的映射函數。這種操作是理想的，因爲它把存儲的開銷最小化，簡化了分配和數據查詢。

分配的最後組件是集羣映射。集羣映射是設備的有效表示，顯示了存儲集羣。有了 PGID 和集羣映射，您就可以定位任何對象。

4) Ceph 元數據服務器

元數據服務器（cmds）的工作就是管理文件系統的名稱空間。雖然元數據和數據兩者都存儲在對象存儲集羣，但兩者分別管理，支持可擴展性。事實上，元數據在一個元數據服務器集羣上被進一步拆分，元數據服務器能夠自適應地複製和分配名稱空間，避免出現熱點。如圖 4 所示，元數據服務器管理名稱空間部分，可以（爲冗餘和性能）進行重疊。元數據服務器到名稱空間的映射在 Ceph 中使用動態子樹邏輯分區執行，它允許 Ceph 對變化的工作負載進行調整（在元數據服務器之間遷移名稱空間）同時保留性能的位置。

圖 4 元數據服務器的 Ceph 名稱空間的分區

但是因爲每個元數據服務器只是簡單地管理客戶端人口的名稱空間，它的主要應用就是一個智能元數據緩存（因爲實際的元數據最終存儲在對象存儲集羣中）。進行寫操作的元數據被緩存在一個短期的日誌中，它最終還是被推入物理存儲器中。這個動作允許元數據服務器將最近的元數據回饋給客戶（這在元數據操作中很常見）。這個日誌對故障恢復也很有用：如果元數據服務器發生故障，它的日誌就會被重放，保證元數據安全存儲在磁盤上。

元數據服務器管理 inode 空間，將文件名轉變爲元數據。元數據服務器將文件名轉變爲索引節點，文件大小，和 Ceph 客戶端用於文件 I/O 的分段數據（佈局）。

5) Ceph 監視器

Ceph 包含實施集羣映射管理的監視器，但是故障管理的一些要素是在對象存儲本身中執行的。當對象存儲設備發生故障或者新設備添加時，監視器就檢測和維護一個有效的集羣映射。這個功能按一種分佈的方式執行，這種方式中映射升級可以和當前的流量通信。Ceph 使用 Paxos，它是一系列分佈式共識算法。

6) Ceph 對象存儲

和傳統的對象存儲類似，Ceph 存儲節點不僅包括存儲，還包括智能。傳統的驅動是隻響應來自啓動者的命令的簡單目標。但是對象存儲設備是智能設備，它能作爲目標和啓動者，支持與其他對象存儲設備的通信和合作。

從存儲角度來看，Ceph 對象存儲設備執行從對象到塊的映射（在客戶端的文件系統層中常常執行的任務）。這個動作允許本地實體以最佳方式決定怎樣存儲一個對象。Ceph 的早期版本在一個名爲 EBOFS 的本地存儲器上實現一個自定義低級文件系統。這個系統實現一個到底層存儲的非標準接口，這個底層存儲已針對對象語義和其他特性（例如對磁盤提交的異步通知）調優。今天，B-tree 文件系統（BTRFS）可以被用於存儲節點，它已經實現了部分必要功能（例如嵌入式完整性）。

因爲 Ceph 客戶實現 CRUSH，而且對磁盤上的文件映射塊一無所知，下面的存儲設備就能安全地管理對象到塊的映射。這允許存儲節點複製數據（當發現一個設備出現故障時）。分配故障恢復也允許存儲系統擴展，因爲故障檢測和恢復跨生態系統分配。Ceph 稱其爲 RADOS。

Ubuntu 12.04 Ceph分佈式文件系統之概述

1) Ceph 架構

2) Ceph 組件

3) Ceph 客戶端

4) Ceph 元數據服務器

5) Ceph 監視器

6) Ceph 對象存儲

微服務實踐k8s&dapr開發部署實驗（2）狀態管理

Win10 LTSC 2019 安裝後的一些步驟

Python 潮流週刊#52：Python 處理 Excel 的資源

version

構建主DNS服務器+緩存域名服務器

構建主DNS服務器+子域委派

數據恢復-ext3grep的使用

Ubuntu12.04 OpenStack Folsom 安裝（VLAN模式）之一

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結