HBase數據模型解析和基本的表設計分析

最近在學習HBase的使用，並仔細閱讀了一篇官方推薦的博客，在這裏就以一邊翻譯一邊總結的方式和大家一起梳理一下HBase的數據模型和基本的表設計思路。

官方推薦的博客原文地址：http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login1210_khurana.pdf點擊打開鏈接

HBase是一個開源可伸縮的針對海量數據存儲的分佈式nosql數據庫，它根據Google Bigtable數據模型來建模並構建在hadoop的hdfs存儲系統之上。它和關係型數據庫Mysql, Oracle等有明顯的區別，HBase的數據模型犧牲了關係型數據庫的一些特性但是卻換來了極大的可伸縮性和對錶結構的靈活操作。

在一定程度上，Hbase又可以看成是以行鍵(Row Key),列標識(column qualifier),時間戳(timestamp)標識的有序Map數據結構的數據庫，具有稀疏，分佈式，持久化，多維度等特點。

Base的數據模型介紹
HBase的數據模型也是由一張張的表組成，每一張表裏也有數據行和列，但是在HBase數據庫中的行和列又和關係型數據庫的稍有不同。下面統一介紹HBase數據模型中一些名詞的概念:

         表(Table): HBase會將數據組織進一張張的表裏面，但是需要注意的是表名必須是能用在文件路徑裏的合法名字，因爲HBase的表是映射成hdfs上面的文件。

         行(Row): 在表裏面，每一行代表着一個數據對象，每一行都是以一個行鍵（Row Key）來進行唯一標識的，行鍵並沒有什麼特定的數據類型，以二進制的字節來存儲。

         列族(Column Family): 在定義HBase表的時候需要提前設置好列族, 表中所有的列都需要組織在列族裏面，列族一旦確定後，就不能輕易修改，因爲它會影響到HBase真實的物理存儲結構，但是列族中的列標識(Column Qualifier)以及其對應的值可以動態增刪。表中的每一行都有相同的列族，但是不需要每一行的列族裏都有一致的列標識(Column Qualifier)和值，所以說是一種稀疏的表結構，這樣可以一定程度上避免數據的冗餘。例如：{row1, userInfo: telephone —> 137XXXXX869 }{row2, userInfo: fax phone —> 0898-66XXXX } 行1和行2都有同一個列族userinfo，但是行1中的列族只有列標識(Column Qualifier):移動電話號碼，而行2中的列族中只有列標識(Column Qualifier):傳真號碼。

         列標識(Column Qualifier): 列族中的數據通過列標識來進行映射，其實這裏大家可以不用拘泥於“列”這個概念，也可以理解爲一個鍵值對,Column Qualifier就是Key。列標識也沒有特定的數據類型，以二進制字節來存儲。

         單元(Cell): 每一個行鍵，列族和列標識共同組成一個單元，存儲在單元裏的數據稱爲單元數據，單元和單元數據也沒有特定的數據類型，以二進制字節來存儲。

時間戳(Timestamp): 默認下每一個單元中的數據插入時都會用時間戳來進行版本標識。讀取單元數據時，如果時間戳沒有被指定，則默認返回最新的數據，寫入新的單元數據時，如果沒有設置時間戳，默認使用當前時間。每一個列族的單元數據的版本數量都被HBase單獨維護，默認情況下HBase保留3個版本數據。