1. hive metastore 內部結構
1.1 包結構
從package結構來看,主要的5個package,讓我們來看看這幾個package的內容
(1) metastorepackage是metastore 模塊的入口,也是整個metastore模塊的核心所在,裏面包含了HiveMetaStore類作爲整個模塊的核心,接收來自hive的請求,返回需要的信息。
(2) metastore.apipackage包含了調用和訪問metastore模塊的接口以及接口參數和返回值類型,metastore模塊的用戶可以通過api對metastore模塊進行訪問
(3)metastore.events 用於metastore模塊內部的觀察者模式。因爲metastore模塊是支持notification通知機制和一些其他的後續處理的。通過觀察者模式,當metastore對元信息進行一些操作以後,會同時產生一些event,這些event會被它們的listener捕獲,並作出一些相應的處理,如發出一些通知等。
(4)metastore.model 與數據持久化相關,metastore模塊通過datanucleus庫將model持久化到數據庫,這裏的model與數據庫中的表是對應的。
(5)metastore.tools 是供後臺的元信息數據管理員對元信息進行查看和修改的工具。
1.2. 類結構
在上述的5個package,比較核心比較重要的是metastore package,讓我們來詳細看看其中的類結構。
(1) 首先看看client,HiveMetaStoreClient繼承自IMetaStoreClient接口,HiveMetaStoreClient可以通過本地和遠程兩種方式訪問和調用HIveMetaStore的Server。
(2) 核心部分是HiveMetaStore的內部類HMSHandler,它繼承自IHMSHandler接口,IHMSHandler又繼承自ThrifHiveMetastore.Iface接口,提供通過Thrift方式進行遠程的調用。在HiveMetaStore. HMSHandler內實現了接口的所有metastore模塊對外的方法。
(3) ObjectStore繼承自RowStore接口,是用於對數據進行持久化的部分,Object可以從數據庫中獲取數據並映射到model的對象中,或者將model中的對象存入數據庫。
(4)HiveAlterHandler 繼承自AlterHandler接口,從HMSHandler分離出來專門進行Alter一類操作。
(5)Warehouse 主要作用是對HDFS上的文件進行操作。因爲在修改元信息的同時可能會涉及到HDFS上的一些文件操作,如mkdir,delteDir等操作。
(6)MetaStorePreEventListener,MetaStoreEventListener,MetaStoreEndFunctionListener通過觀察者模式對產生的event進行相應的處理的觀察者。這三個類都是抽象類,由其他一些具體的類來繼承和實現。
2. hive 與metastore交互
再來看看hive 是如何與metastore交互的,下面從兩個例子來看,一個例子是一個DDL的hql指令,另一個是ANALYZE的hql指令。
2.1 DDLql
(1) 在ql.Driver中對command進行compile,需要調用ql.parse.Semantic.Analyzer的analyze方法對command進行分析優化,ql.parse.Semantic.Analyzer此時會調用ql.metadata.Hive的getTable方法獲取表信息,ql.metadata.Hive是ql模塊中用於與metastore模塊交互的類,它會通過HiveMetaStoreClient去訪問和調用metastore模塊。
(2) compile的過程還會調用ql.parse.Semantic.Analyzer的getSchema方法獲取Schema的信息,這個信息會在上一步保存在ql.parse.Semantic.Analyzer中。
(3) 接着在ql.Driver中會對command進行execute,execute的過程新建一個ql.exec.DDLTask來進行DDL指令的執行,在ql.exec.DDLTask中會調用ql.metadata.Hive中的一些DDL的方法去執行DDL處理。
這個例子是一個不包含map-reduce處理的例子,只對metastore中的元信息進行修改,下面這個例子則包含了map-reduce的處理和metastore中元信息的修改。
2.2 ANALYZEql
(1) 這裏的compile過程和上一個例子類似,不再贅述。
(2) 接着在ql.Driver中會對command進行execute,execute的過程新建一個ql.exec.MapRedTask來進行map-reduce的處理,在ql.exec.MapRedTask的execute過程中會新建一個map-reduce的job,通過命令行調用的方式向hadoop提交這個job,並接收map-reduce的處理結果,儲存在上下文環境中。
(3) 在map-reduce的job運行完以後,ql.Driver會再次新建一個ql.exec.Stats來處理分析統計信息,ql.exec.Stats的execute過程會調用ql.metadata.Hive的updateTableColumnStatistics或者updataPartitionColumnStatistics方法(這裏會根據command的不同來選擇)去更新metastore中的統計信息。
3. 對於metastore中數據庫容量和擴展性的預估
從大容量和擴展性來講佔存儲空間的主要的Model或Table如下:
Database,Table, Partition 和 Role
我們從添加database,table,partition,role的方法入手計算需要消耗多少的存儲空間。
注:R(x) 表示x表一行的大小;N(x)表示系統中有多少的x的實例,即x表的行數; k表示一個較小的數
(1) 創建N(database)個database,向database和database_params表中添加數據,大概是
(R(database)+k*R(database_params))*N(database)
(2) 創建N(table)個table,每個table需要向table表和table_params表中添加數據爲
R(table)+k*R(table_params)
同時需要添加TableColumnPrivilege,TableColumnStatistics, TablePrivilege, 每個table對應的大小爲
N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)
還需要添加StorageDescriptor,因爲StorageDescriptor包含Column信息,每個table對應的大小爲
N(column)*R(FieldSchema)+R(SerDeInfo)
總體來說添加N(table)個table,需要添加的數據大小爲:
[R(table)+k*R(table_params)+
N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+
N(column)*R(FieldSchema)+R(SerDeInfo)]
*N(table)
(3) 創建N(partion)個partion,每個partion需要向patition表和partition_params表以及table表中添加數據爲
R(partition)+k*R(partition_params)+R(FileSchema)
同時需要添加PartitionColumnPrivilege, PartitionColumnStatistics,PartitionPrivilege, 每個partition對應的大小爲
N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)
總體來說添加N(partition)個partition,需要添加的數據大小爲:
[R(partition)+k*R(partition_params)+N(partition)*R(FileSchema)+
N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]
*N(partition)
(4) 創建N(role)個role,需要添加的大小爲:
N(role)*R(role)
總計數據庫存儲文件大小爲
(R(database)+k*R(database_params))*N(database)+
[R(table)+k*R(table_params)+
N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+
N(column)*R(FieldSchema)+R(SerDeInfo)]
*N(table)+
[R(partition)+k*R(partition_params)+R(FileSchema)+
N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]
*N(partition)+
N(role)*R(role)
將R(x) 精簡爲R,則總計大小爲:
k*R*N(database)+2*R*N(column)*N(table)+R*N(column)*N(partition)+R*N(role)
=[k*N(database)+N(role)+2*N(column)*N(table)+N(column)*N(partition)]*R