Hive Metastore 代碼簡析

1.  hive metastore 內部結構

1.1 包結構


從package結構來看,主要的5個package,讓我們來看看這幾個package的內容

(1) metastorepackage是metastore 模塊的入口,也是整個metastore模塊的核心所在,裏面包含了HiveMetaStore類作爲整個模塊的核心,接收來自hive的請求,返回需要的信息。

(2) metastore.apipackage包含了調用和訪問metastore模塊的接口以及接口參數和返回值類型,metastore模塊的用戶可以通過api對metastore模塊進行訪問

(3)metastore.events 用於metastore模塊內部的觀察者模式。因爲metastore模塊是支持notification通知機制和一些其他的後續處理的。通過觀察者模式,當metastore對元信息進行一些操作以後,會同時產生一些event,這些event會被它們的listener捕獲,並作出一些相應的處理,如發出一些通知等。

(4)metastore.model 與數據持久化相關,metastore模塊通過datanucleus庫將model持久化到數據庫,這裏的model與數據庫中的表是對應的。

(5)metastore.tools 是供後臺的元信息數據管理員對元信息進行查看和修改的工具。

 

1.2. 類結構

在上述的5個package,比較核心比較重要的是metastore package,讓我們來詳細看看其中的類結構。


(1) 首先看看client,HiveMetaStoreClient繼承自IMetaStoreClient接口,HiveMetaStoreClient可以通過本地和遠程兩種方式訪問和調用HIveMetaStore的Server。

(2) 核心部分是HiveMetaStore的內部類HMSHandler,它繼承自IHMSHandler接口,IHMSHandler又繼承自ThrifHiveMetastore.Iface接口,提供通過Thrift方式進行遠程的調用。在HiveMetaStore. HMSHandler內實現了接口的所有metastore模塊對外的方法。

(3) ObjectStore繼承自RowStore接口,是用於對數據進行持久化的部分,Object可以從數據庫中獲取數據並映射到model的對象中,或者將model中的對象存入數據庫。

(4)HiveAlterHandler 繼承自AlterHandler接口,從HMSHandler分離出來專門進行Alter一類操作。

(5)Warehouse 主要作用是對HDFS上的文件進行操作。因爲在修改元信息的同時可能會涉及到HDFS上的一些文件操作,如mkdir,delteDir等操作。

(6)MetaStorePreEventListener,MetaStoreEventListener,MetaStoreEndFunctionListener通過觀察者模式對產生的event進行相應的處理的觀察者。這三個類都是抽象類,由其他一些具體的類來繼承和實現。

 

2. hive 與metastore交互

再來看看hive 是如何與metastore交互的,下面從兩個例子來看,一個例子是一個DDL的hql指令,另一個是ANALYZE的hql指令。

 

2.1 DDLql


(1) 在ql.Driver中對command進行compile,需要調用ql.parse.Semantic.Analyzer的analyze方法對command進行分析優化,ql.parse.Semantic.Analyzer此時會調用ql.metadata.Hive的getTable方法獲取表信息,ql.metadata.Hive是ql模塊中用於與metastore模塊交互的類,它會通過HiveMetaStoreClient去訪問和調用metastore模塊。

(2) compile的過程還會調用ql.parse.Semantic.Analyzer的getSchema方法獲取Schema的信息,這個信息會在上一步保存在ql.parse.Semantic.Analyzer中。

(3) 接着在ql.Driver中會對command進行execute,execute的過程新建一個ql.exec.DDLTask來進行DDL指令的執行,在ql.exec.DDLTask中會調用ql.metadata.Hive中的一些DDL的方法去執行DDL處理。

這個例子是一個不包含map-reduce處理的例子,只對metastore中的元信息進行修改,下面這個例子則包含了map-reduce的處理和metastore中元信息的修改。

 

2.2 ANALYZEql


(1) 這裏的compile過程和上一個例子類似,不再贅述。

(2) 接着在ql.Driver中會對command進行execute,execute的過程新建一個ql.exec.MapRedTask來進行map-reduce的處理,在ql.exec.MapRedTask的execute過程中會新建一個map-reduce的job,通過命令行調用的方式向hadoop提交這個job,並接收map-reduce的處理結果,儲存在上下文環境中。

(3) 在map-reduce的job運行完以後,ql.Driver會再次新建一個ql.exec.Stats來處理分析統計信息,ql.exec.Stats的execute過程會調用ql.metadata.Hive的updateTableColumnStatistics或者updataPartitionColumnStatistics方法(這裏會根據command的不同來選擇)去更新metastore中的統計信息。

 

3. 對於metastore中數據庫容量和擴展性的預估

從大容量和擴展性來講佔存儲空間的主要的Model或Table如下:

Database,Table, Partition 和 Role

我們從添加database,table,partition,role的方法入手計算需要消耗多少的存儲空間。

注:R(x) 表示x表一行的大小;N(x)表示系統中有多少的x的實例,即x表的行數; k表示一個較小的數

(1) 創建N(database)個database,向database和database_params表中添加數據,大概是

(R(database)+k*R(database_params))*N(database)

 

(2) 創建N(table)個table,每個table需要向table表和table_params表中添加數據爲

R(table)+k*R(table_params)

同時需要添加TableColumnPrivilege,TableColumnStatistics, TablePrivilege, 每個table對應的大小爲

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)

還需要添加StorageDescriptor,因爲StorageDescriptor包含Column信息,每個table對應的大小爲

N(column)*R(FieldSchema)+R(SerDeInfo)

總體來說添加N(table)個table,需要添加的數據大小爲:

[R(table)+k*R(table_params)+

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+

N(column)*R(FieldSchema)+R(SerDeInfo)]

*N(table)

 

(3) 創建N(partion)個partion,每個partion需要向patition表和partition_params表以及table表中添加數據爲

R(partition)+k*R(partition_params)+R(FileSchema)

同時需要添加PartitionColumnPrivilege, PartitionColumnStatistics,PartitionPrivilege, 每個partition對應的大小爲

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)

總體來說添加N(partition)個partition,需要添加的數據大小爲:

[R(partition)+k*R(partition_params)+N(partition)*R(FileSchema)+

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]

*N(partition)

(4) 創建N(role)個role,需要添加的大小爲:

N(role)*R(role)

 

總計數據庫存儲文件大小爲

(R(database)+k*R(database_params))*N(database)+

[R(table)+k*R(table_params)+

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+

N(column)*R(FieldSchema)+R(SerDeInfo)]

*N(table)+

[R(partition)+k*R(partition_params)+R(FileSchema)+

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]

*N(partition)+

N(role)*R(role)

 

將R(x) 精簡爲R,則總計大小爲:

k*R*N(database)+2*R*N(column)*N(table)+R*N(column)*N(partition)+R*N(role)

=[k*N(database)+N(role)+2*N(column)*N(table)+N(column)*N(partition)]*R

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章