新版 UFile 上線:ZB 時代的量販式對象存儲

隨着 5G+IoT 時代來臨,產生數據的主角除了人類還有海量的物理設備,相比 4G 移動互聯網的短視頻、直播等,會有更大量的數據產生。據 IDC 發佈的《數據時代 2025》的預測,全球每年產生的數據將從 2018 年的 33ZB 增長到 2025 年的 175ZB,每年新增約 20ZB,如果使用 8T 的磁盤,只保存一份副本,每年需要 25 億塊磁盤,數億臺主機。

這些數據大多以視頻、圖片、文本等非結構化形式存在,並需要妥善保存以做後續利用。爲此,數據的存儲載體需要具備隨時隨地上傳、安全、可擴展以及低成本的特性。目前,對象存儲是這些海量非結構化數據最好的存儲載體。

UFile:做 Costco 式的對象存儲

UFile 是 UCloud 2015 年推出的對象存儲產品。過去一年間,UFile 從整體上做了一次較大升級,推出不少功能特性和優化,更好地滿足用戶對海量非結構化數據的需求。這一過程中,UFile 將其產品理念概括爲 “成爲 Costco 式的存儲”,爲什麼是 Costco 式的?

圖:UFile 控制檯界面

前段時間量販式倉儲會員店 Costco 在國內火爆開業,在一個既不缺線下商超、同時線上電商更是遍地開花,市場競爭異常激烈的中國市場,Costco 靠什麼去切入用戶?雷軍是這麼評價 Costco 的:“Costco 這麼多年所向披靡的最重要原因就是抓住了其存在的本質,商品做到極好,價格做到極低,服務做到超預期。”

這個理念也同樣適用於對象存儲領域,UFile 把用戶最本質的需求概括爲 3 點:極高的可靠性和性能、極低的成本以及極優的體驗。

對象存儲的三個典型案例

在介紹 UFile 之前,我們先來看看 AI、大數據和 IoT 場景下的 3 個案例:

1

某傳統金屬件加工企業原本有這樣一項業務:員工人力摘撿不合格產品。現在,該項業務轉變爲拍照取證+AI 智能檢測的方式,相較之前大大節省了企業的人力投入成本,並降低了人工檢測的誤差。同時也產生了一項新需求:所有圖片數據需保存 25 年以供後續質保檢驗。

用戶的需求:如何保證數據長時間存儲的高可靠需求?

2

某大數據分析企業積攢了數個 PB 的大數據,在完成分析後這些數據的訪問量降到較低,但在一段時間內仍需存儲保留原始數據或者分析後的中間數據。對企業來講,這數 PB 的數據存儲將會是一筆不小的開銷。

用戶的需求:如何實現海量數據的低成本存儲需求?

3

某城市地鐵每天停運後都需要人工沿地鐵進行檢修,效率較低且需要大量人力的投入。因此計劃引入 IoT 技術:在地鐵中部署一些傳感器,檢測地鐵的聲音、溫度、圖像、視頻等,數據使用 4G 網絡隨時隨地上傳到雲端存儲,解決人力工作成本並提高檢修效率。

用戶的需求:這些分散在地下各處的傳感器如何方便、安全、低延時的進行數據的上傳?

我們總結了這三個案例的關鍵字:高可靠、低成本、使用體驗,下面我們來詳細介紹 UFile 在這三方面所做的工作。

一 、數據高可靠

1、多副本 + 同構的冗餘機制

首先,UFile 採用 3 副本和糾刪碼技術,可以確保數據在兩塊磁盤損壞的時候數據不丟失。不同於類似 Ceph 異構的數據分佈技術,UFile 3 副本技術採用同構的數據分佈方式,這種同構的數據分佈可以保證數據更高的可靠性。

圖:同構與異構數據分佈對比

從上圖可知,同構情況下只有集羣 a 或者 b 同時損壞 2 種丟失數據的可能情況,而在異構結構下有 6 種丟失數據的組合情況,同構的可靠性顯然更高。

2、跨地域的數據災備

UFile 是一個地域級別的存儲產品,爲了更好的提供數據災備能力,UFile 今年推出了跨地域的災備功能:支持 3 個及以上的地域複製,複製方式包括鏈式結構(A->B->C)與技術實現更復雜的環式結構(A->B->C->A)。環狀結構的優點是能夠支持更多地域的讀寫,並滿足就近讀寫業務的需求。

圖:多地域複製及就近讀寫功能示意

3、故障處理機制的完善和創新

除此之外,UFile 還在故障的快速發現和恢復上做了不少創新。除應用常規的硬件和軟件層面的監控幫助用戶快速發現數據異常外,UFile 採用 Set 化的架構設計,當出現機器或磁盤故障時,可以將該 Set 集羣設置爲只讀,從而降低該 Set 集羣的業務負載,幫助恢復程序以最快的速度恢復故障磁盤或機器,大大提高數據的可靠性。

二 、業務低成本

1、對象級別的分層存儲

UFile 採用專門的存儲機型,存儲密度更高,單位存儲的成本最低可降到計算機型的 15%。同時採用糾刪碼技術,在確保數據可靠性的前提下,存儲成本可降低到 3 副本冗餘機制下的 40% 左右。

此外,UFile 還對數據分層和數據生命週期管理進行了優化,致力於從數據分層存儲的角度進一步降低用戶存儲的成本。

用戶業務往往同時存在高頻和低頻訪問的數據,而相同數據在不同生命週期也存在不同的訪問頻率。一個剛產生的高頻訪問的數據,隨着時間的推移訪問頻率往往會逐漸減低,數個月後便可能從高頻轉爲低頻。不同訪問頻率的數據可採用不同成本的存儲方案。

業內早期的解決方案是通過支持熱、溫、冷 3 種存儲產品來滿足不同頻率訪問數據的要求,用戶分別在 3 種存儲產品上創建 Bucket,然後根據數據的訪問頻率放置到對應的 Bucket。按照用戶設置的時間規則,在不同時間點數據會在 3 種 Bucket 進行遷移。這種解決方案雖然解決了數據存儲的成本問題,但是缺點在於對業務不太友好,需要業務感知這種變化。

圖:傳統的分層存儲數據流轉示意

針對該問題,UFile 在今年推出了對象級別的分層存儲方案。和傳統解決方案不一樣的是,UFile 支持同個 Bucket 中同時存在熱、溫、冷 3 種數據,用戶可以將同個業務中的 3 種數據上傳到同個 Bucket,同時數據訪問頻率發生變化後還會保留在同個 Bucket 中。

這種方案對用戶的業務更加友好,而且也爲後續即將推出的數據自動化分層管理奠定了良好的基礎。用戶很多時候無法區分數據的冷、熱程度,或者無法準確的預測數據什麼時候開始變冷,而更好的做法是將這些工作交給後臺程序自動完成,這樣可以讓用戶享受到最低的存儲成本。

圖:UFile 分層存儲方案數據流轉示意

2、自建大數據存儲與 UFile 歸檔存儲的成本對比

我們回到開頭的大數據用戶的場景,該企業現有 5PB 的數據量,因爲用戶的數據訪問頻率較低,所以推薦採用 UFile 的歸檔存儲方案,下表是使用自建大數據存儲和 UFile 歸檔存儲方案成本差異對比。

事實上,我們還沒有考慮數據逐漸增長的過程,對象存儲是按需付費的,實際使用多少資源纔會支付多少費用,而自建大數據存儲往往會存在資源和成本的空閒浪費。因此,針對海量數據的冷存儲,UFile 歸檔存儲方案能夠提供更高的性價比。

三 、產品體驗優化

1、數據安全 + 高質量網絡保證

移動設備和 IoT 設備都有隨時隨地上傳的需求,而隨時隨地的上傳則對數據安全和網絡質量都提出了更高的要求。

針對該需求,首先 UFile 支持 Https 協議,支持用戶使用公私鑰或者 Token 的方式來隨時隨地的傳輸數據、確保數據的安全性。

其次,UFile 已在全球 10 多個國家和地區分佈有節點,覆蓋國內主要城市和國外主要國家,按照規劃 UFile 後續還將覆蓋到更多地區和國家。國內外的數據節點均採用 BGP 機房或者運營商節點機房,能夠提供高質量的網絡保障,確保用戶數據上傳過程中的穩定和低延時。

圖:UFile 全球數據中心分佈

2、用戶接入體驗優化

目前 UFile 的 SDK 覆蓋了主流的開發語言,並分別支持 iOS 和 Android 移動端。同時 UFile 還兼容了常用的 S3 協議,支持第三方用戶態網絡文件系統訪問 UFile,如 S3fs、Goofys,這樣用戶可以像使用本地文件系統一樣使用對象存儲。相比本地文件系統,以 UFile 爲存儲池的用戶態網絡文件系統可以爲用戶帶來更大的存儲空間和更低的存儲成本。

圖:通過 Goofys 把某個 Bucket 掛載成文件系統並操作

圖:通過 Goofys 寫 UFile 後的效果

3、各類應用場景下的定製化解決方案

此外,UFile 還提供了各類常用應用場景和備份場景的定製化解決方案:

  • 針對多媒體場景,UFile 結合 UCloud 全球 500 多個 CDN 節點,給用戶提供高質量的視頻和圖片類服務。
  • 針對大數據場景,UFile 推出了計算存儲分離的方案,使用 UFile 來替代 HDFS,計算層只需修改配置文件即可完成替換。
  • 在 UCloud 今年推出的重量級數據分析產品 USQL 中便採用了計算存儲分離的解決方案,對計算和存儲都採用按需計費的方式,大大降低了大數據分析的成本。同時 USQL 依託於 UFile 強大的 IO 能力,以及無限存儲容量,實現了海量數據的快速分析。
  • 針對備份類的場景,UFile 提供了 Hadoop 冷數據備份場景、MySQL 數據庫備份和恢復場景、ES 日誌備份的場景、網站文件備份場景等解決方案,幫助用戶輕鬆完成數據備份。

Hadoop 冷數據備份場景實例分析:

Step1

圖:Hadoop 集羣中的文件在 UFile 的某個 Bucket 中不存在

Step2

圖:通過 distcp 工具備份至 UFile 的某個 Bucket 中

Step3

圖:備份成功後可以在 UFile 控制檯看到該文件

結語

最後,針對海量非結構化數據,除了數據高可靠、低成本以及良好的使用體驗,還有一個非常重要的需求便是高性能。特別是在引入生命週期和目錄功能後的列表查詢場景以及類似網絡攝像頭的大量寫入及刪除類的場景,對索引和存儲的性能提出較大的挑戰。

UFile 目前已經上線了目錄功能和生命週期功能,大批量刪除的性能也相比以往有較大的提升。後期我們還將專門介紹這兩類場景下索引和存儲的優化工作,敬請期待。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章