EC糾刪碼理論介紹

原創

2020-04-20 02:47

文章目錄

糾刪碼理論介紹

糾刪碼理論介紹

1 什麼是EC？

EC：糾刪碼-Erasure Code，是一種編碼理論：

EC是糾錯碼的一種，通過增加校驗片，保證數據可靠性。
特性：將數據分成k個分片，生成m個校驗片，假設n=k+m，在n個分片中任意選取k個分片，就可以將原始數據恢復回來。

EC不僅應用在存儲領域，通信領域也是EC的主要應用場景。

2 EC(4+2)編解碼簡介

上圖可以簡單說明EC(4+2)的編碼、解碼以及故障恢復的主要流程，包括：

chunk：將數據進行分片，如圖分成4個片：d1、d2、d3、d4.
encode：根據4個數據片，生成2個校驗片（生成校驗片的邏輯請看下一節），這樣就形成4+2的EC數據片
故障：4+2的EC，允許這6個數據片任意損壞2個，假如損壞了d2和c1，如圖
decode：通過d1、d3、d4、c2，根據EC的計算，可以算出原始的數據塊
re-encode：將原始的數據塊分成d1、d2、d3、d4，再次計算出c1、c2
replace：將損壞的數據塊d2、c1進行替換掉即可

可以發現EC的故障恢復比副本更復雜，副本直接再copy一份即可，但是EC比副本的優勢是成本，相比於3副本，EC在保證同樣可靠性的同時，並不需要保存3份數據。

3 EC的數學原理

其中：

B是一個(5+3)行5列的矩陣，這個矩陣有這樣的特點，任意5階方陣都是一個可逆矩陣
D是數據，分成了5等份，D1~D5

根據矩陣乘法，B * D 的結果是一個剛好是(5+3)行1列的矩陣，即：D1、D2、D3、D4、D5、C1、C2、C3，這種(5+3)的EC策略是允許任意3份的丟失。

假如D1、D4、C2損壞了，那麼依然存在這樣的等式：B’ * D = D2、D3、D5、C1、C3，如上圖2.中的等式

由於B’存在可逆矩陣，那麼兩邊同時乘以B’的可逆矩陣，得到上圖4.等式，那麼就到的原始數據D：D1、D2、D3、D4、D5。

最後，B * D就能把損壞的D1、D4、C2計算出來，進而達到故障恢復。

說明

符合B矩陣要求的，有：

範德蒙矩陣：就是高等數學裏面我們學過的那個範德蒙矩陣
柯西矩陣：應該也學過
其他符合要求的矩陣

4 EC存儲的優缺點

優勢

磁盤利用率高，存儲成本低，通常是3副本存儲的一半，甚至更低
和3副本相比，有較低的網絡開銷，尤其在write的時候表現明顯

劣勢

在編、解碼過程中通常有較大的CPU佔用和網絡開銷，主要體現在write和故障read、故障恢復的情況下
EC必須滿條帶的讀寫，不足條帶的情況下會有padding
和3副本相比，EC存儲系統更復雜，集羣穩定性挑戰更大

EC編碼的缺點，使得EC最開始並沒有應用在線數據，一般都是應用在低頻存儲中，何爲低頻存儲，就是訪問頻次較低數據的存儲系統中，不過目前已經有的在線存儲也開始使用EC編碼了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據湖架構，爲什麼需要“湖加速”？

在開源大數據領域，存儲/計算分離已經成爲共識和標準做法，數據湖架構成爲大數據平臺的首要選擇。基於這一範式，大數據架構師需要考慮三件事情：第一，選擇什麼樣的存儲系統做數據湖(湖存儲)？第二，計算和存儲分離後，出現了性能瓶頸，計算如何

雲棲號資訊小哥

2020-09-23 17:34:56

JindoTable數據湖優化與查詢加速

概述近幾年，數據湖架構的概念逐漸興起，很多企業都在嘗試構建數據湖。相比較大數據平臺，數據湖在數據治理方面提出了更高的要求。對於數據湖場景所提出的新需求，“傳統”的大數據工具在很多方面都面臨着新的挑戰。JindoTable 正是專爲解決數據

雲棲號資訊小哥

2020-09-22 17:07:54

單機網站架構雲化

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述很多客戶最開始使用雲的時候，會把雲（服務器）簡單地當成普通的物理服務器

最佳實踐小文

2020-09-22 09:59:10

低成本跨境文件傳輸

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述通過OSS加速域名，配合函數計算和函數工作流，打造低成本、高效的跨境對

最佳實踐小文

2020-09-22 09:58:59

雲上網站經典架構

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述在創業型公司或阿米巴模式經營的公司，新項目發佈初期存在較大的不確定性，

最佳實踐小文

2020-09-22 09:58:59

搶佔式ECS搭建離線大數據分析集羣

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述基於阿里雲的搶佔式ECS實例以及彈性伸縮能力，同時結合阿里雲對象存儲O

最佳實踐小文

2020-09-22 09:58:59

EMR彈性低成本離線大數據分析

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述基於阿里雲的E-MapReduce(EMR) 、對象存儲OSS、日誌服

最佳實踐小文

2020-09-22 09:58:49

雲原生領域首本架構白皮書，你Get到了嗎？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！【導讀】近日，由阿里雲 20+ 位雲原生技術專家共同編撰的《雲原生架構白皮書》正式對外發布。作爲業界第一本全方位構建雲原生架構規劃與實踐全景

雲棲號資訊小編

2020-08-04 10:53:01

Serverless 實戰：通過 Component 實現多地域部署容災

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！單點故障是實際生產中無法避免的，單副本的存儲方案也早已無法滿足業務的可靠性要求。現在，我們通常都會做雙機存儲架構，會涉及到主備、主從、主主模

雲棲號資訊小編

2020-07-31 11:28:52

從網絡文件系統到對象存儲，聊聊對象存儲的前世今生

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！每種技術的產生都有其原因，也有其淵源。網絡文件系統的產生有幾十年的歷史了，但是由於在互聯網盛行的當下無法滿足某些需求，於是對象存儲產生了。今

雲棲號資訊小哥

2020-07-28 12:37:53

Databricks數據洞察應用場景有哪些？

雲棲號快速入門：【點擊查看更多雲產品快速入門】不知道怎麼入門？這裏分分鐘解決新手入門等基礎問題，可快速完成產品配置操作！ Databricks數據洞察（簡稱DDI）的核心引擎是Databricks Runtime和Databricks De

2020-07-22 21:04:48

業界首發｜雲原生領域首本架構白皮書重磅發佈

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！來源 | 《雲原生架構白皮書》【導讀】今日，由阿里雲 20+ 位雲原生技術專家共同編撰的《雲原生架構白皮書》正式對外發布。作爲業界第一本全

雲棲號資訊小哥

2020-07-22 12:25:52

什麼是混合雲存儲陣列CSA系列？

雲棲號快速入門：【點擊查看更多雲產品快速入門】不知道怎麼入門？這裏分分鐘解決新手入門等基礎問題，可快速完成產品配置操作！混合雲存儲陣列（Hybrid Cloud Storage Array，簡稱HCSA）基於專有的本地存儲設備，並集成雲存

2020-07-08 22:16:46

鏡像網絡MW受邀亮相巴比特杭州區塊鏈國際周

2020年7月5-6日鏡像網絡MW隆重受邀參加由杭州市餘杭區政府指導，杭州未來科技城管委會、巴比特主辦，鏈節點、QKL123、巴比特國際站聯合主辦的“擁抱產業新浪潮——2020杭州區塊鏈國際周”大會！據悉，作爲杭州區塊鏈國際周舉辦場地

2020-07-08 01:43:37

IPFS-星際命名系統（IPNS、DNSLink）

什麼是IPNS IPFS學習-IPNS 參考URL: https://www.cnblogs.com/cbkj-xd/p/12059887.html IPNS全稱是Inter-Planetary Naming Service，星際

2020-07-07 23:16:19

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章