分佈式系統

   

海量文件如何存儲?

  使用分佈式存儲,如mfs、hadoop

   常見的分佈式文件系統有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用於不同的領域。它們都不是系統級的分佈式文件系統,而是應用級的分佈式文件存儲服務。

TFS(Taobao File System)是淘寶解決海量小文件存儲自主研發的分佈式文件系統,通過將數據分佈到多個存儲節點來解決問題
1、通過將多個小文件打包存儲到大文件(block)以及扁平化的目錄結構來解決問題
2、通過block多副本以及按block複製的方式來解決問題3。

分佈式領域CAP理論
Consistency [kən'sɪstənsɪ]  (一致性), 數據一致更新,所有數據變動都是同步的,被複製成相同。

Availability  [əˌveɪlə'bɪləti]  (可用性), 所有在分佈式系統活躍的節點都能夠處理操作且能響應查詢

Partition tolerance [pɑː'tɪʃn]   ['tɒlərəns]   (分區容錯性) 在兩個複製系統之間,如果發生了計劃之外的網絡連接問題,對於這種情況,有一套容錯性設計來保證。

CAP原理指的是,這三個要素最多隻能同時實現兩點,不可能三者兼顧。因此在進行分佈式架構設計時,必須做出取捨。而對於分佈式數據系統,分區容忍性是基本要求,否則就失去了價值。因此設計分佈式數據系統,就是在一致性和可用性之間取一個平衡。對於大多數WEB應用,其實並不需要強一致性,因此犧牲一致性而換取高可用性,是多數分佈式數據庫產品的方向。

對於關係型數據庫,要求更新過的數據能被後續的訪問都能看到,這是強一致性。如果能容忍後續的部分或者全部訪問不到,則是弱一致性。如果經過一段時間後要求能訪問到更新後的數據,則是最終一致性。

CAP原則是NOSQL數據庫的基石。

事務機制ACID和CAP理論是數據管理和分佈式系統中兩個重要的概念,很不巧,這兩個概念中都有相同的“C”代表 "Consistency" 一致性,但是實際上是完全不同的意義,下面是比較兩個概念的不同之處。

傳統關係式數據庫技術最成熟,關注於ACID


NIS 或者  OpenLDAP

雲存儲




分佈式系統原理


fastdfs 和hdfs的區別 

主要是定位和應用場合不一樣。
hadoop的文件系統HDFS主要解決中數據的問題。其單個數據文件通常很大,採用了分塊(切分)存儲的方式;
FastDFS主要用於大中網站,爲文件上傳和下載提供在線服務。所以在、動態擴容等方面都支持得比較好,FastDFS不會對文件進行分快(切分)存儲。


分佈式體現在多機集羣,易擴展、負載、冗餘

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章