Hive Metastore 代碼簡析

1. hive metastore 內部結構

1.1 包結構

從package結構來看，主要的5個package，讓我們來看看這幾個package的內容

(1) metastorepackage是metastore 模塊的入口，也是整個metastore模塊的核心所在，裏面包含了HiveMetaStore類作爲整個模塊的核心，接收來自hive的請求，返回需要的信息。

(2) metastore.apipackage包含了調用和訪問metastore模塊的接口以及接口參數和返回值類型，metastore模塊的用戶可以通過api對metastore模塊進行訪問

(3)metastore.events 用於metastore模塊內部的觀察者模式。因爲metastore模塊是支持notification通知機制和一些其他的後續處理的。通過觀察者模式，當metastore對元信息進行一些操作以後，會同時產生一些event，這些event會被它們的listener捕獲，並作出一些相應的處理，如發出一些通知等。

(4)metastore.model 與數據持久化相關，metastore模塊通過datanucleus庫將model持久化到數據庫，這裏的model與數據庫中的表是對應的。

(5)metastore.tools 是供後臺的元信息數據管理員對元信息進行查看和修改的工具。

1.2. 類結構

在上述的5個package，比較核心比較重要的是metastore package，讓我們來詳細看看其中的類結構。

(1) 首先看看client，HiveMetaStoreClient繼承自IMetaStoreClient接口，HiveMetaStoreClient可以通過本地和遠程兩種方式訪問和調用HIveMetaStore的Server。

(2) 核心部分是HiveMetaStore的內部類HMSHandler，它繼承自IHMSHandler接口，IHMSHandler又繼承自ThrifHiveMetastore.Iface接口，提供通過Thrift方式進行遠程的調用。在HiveMetaStore. HMSHandler內實現了接口的所有metastore模塊對外的方法。

(3) ObjectStore繼承自RowStore接口，是用於對數據進行持久化的部分，Object可以從數據庫中獲取數據並映射到model的對象中，或者將model中的對象存入數據庫。

(4)HiveAlterHandler 繼承自AlterHandler接口，從HMSHandler分離出來專門進行Alter一類操作。

(5)Warehouse 主要作用是對HDFS上的文件進行操作。因爲在修改元信息的同時可能會涉及到HDFS上的一些文件操作，如mkdir，delteDir等操作。

(6)MetaStorePreEventListener，MetaStoreEventListener，MetaStoreEndFunctionListener通過觀察者模式對產生的event進行相應的處理的觀察者。這三個類都是抽象類，由其他一些具體的類來繼承和實現。

2. hive 與metastore交互

再來看看hive 是如何與metastore交互的，下面從兩個例子來看，一個例子是一個DDL的hql指令，另一個是ANALYZE的hql指令。

2.1 DDLql

(1) 在ql.Driver中對command進行compile，需要調用ql.parse.Semantic.Analyzer的analyze方法對command進行分析優化，ql.parse.Semantic.Analyzer此時會調用ql.metadata.Hive的getTable方法獲取表信息，ql.metadata.Hive是ql模塊中用於與metastore模塊交互的類，它會通過HiveMetaStoreClient去訪問和調用metastore模塊。

(2) compile的過程還會調用ql.parse.Semantic.Analyzer的getSchema方法獲取Schema的信息，這個信息會在上一步保存在ql.parse.Semantic.Analyzer中。

(3) 接着在ql.Driver中會對command進行execute，execute的過程新建一個ql.exec.DDLTask來進行DDL指令的執行，在ql.exec.DDLTask中會調用ql.metadata.Hive中的一些DDL的方法去執行DDL處理。

這個例子是一個不包含map-reduce處理的例子，只對metastore中的元信息進行修改，下面這個例子則包含了map-reduce的處理和metastore中元信息的修改。

2.2 ANALYZEql

(1) 這裏的compile過程和上一個例子類似，不再贅述。

(2) 接着在ql.Driver中會對command進行execute，execute的過程新建一個ql.exec.MapRedTask來進行map-reduce的處理，在ql.exec.MapRedTask的execute過程中會新建一個map-reduce的job，通過命令行調用的方式向hadoop提交這個job，並接收map-reduce的處理結果，儲存在上下文環境中。

(3) 在map-reduce的job運行完以後，ql.Driver會再次新建一個ql.exec.Stats來處理分析統計信息，ql.exec.Stats的execute過程會調用ql.metadata.Hive的updateTableColumnStatistics或者updataPartitionColumnStatistics方法(這裏會根據command的不同來選擇)去更新metastore中的統計信息。

3. 對於metastore中數據庫容量和擴展性的預估

從大容量和擴展性來講佔存儲空間的主要的Model或Table如下：

Database,Table, Partition 和 Role

我們從添加database，table，partition，role的方法入手計算需要消耗多少的存儲空間。

注：R(x) 表示x表一行的大小；N(x)表示系統中有多少的x的實例，即x表的行數； k表示一個較小的數

(1) 創建N(database)個database，向database和database_params表中添加數據，大概是

(R(database)+k*R(database_params))*N(database)

(2) 創建N(table)個table，每個table需要向table表和table_params表中添加數據爲

R(table)+k*R(table_params)

同時需要添加TableColumnPrivilege,TableColumnStatistics, TablePrivilege, 每個table對應的大小爲

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)

還需要添加StorageDescriptor，因爲StorageDescriptor包含Column信息，每個table對應的大小爲

N(column)*R(FieldSchema)+R(SerDeInfo)

總體來說添加N(table)個table，需要添加的數據大小爲：

[R(table)+k*R(table_params)+

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+

N(column)*R(FieldSchema)+R(SerDeInfo)]

*N(table)

(3) 創建N(partion)個partion，每個partion需要向patition表和partition_params表以及table表中添加數據爲

R(partition)+k*R(partition_params)+R(FileSchema)

同時需要添加PartitionColumnPrivilege, PartitionColumnStatistics,PartitionPrivilege, 每個partition對應的大小爲

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)

總體來說添加N(partition)個partition，需要添加的數據大小爲：

[R(partition)+k*R(partition_params)+N(partition)*R(FileSchema)+

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]

*N(partition)

(4) 創建N(role)個role，需要添加的大小爲：

N(role)*R(role)

總計數據庫存儲文件大小爲

(R(database)+k*R(database_params))*N(database)+

[R(table)+k*R(table_params)+

N(column)*R(TableColumnPrivelege)+R(TableColumnStatistics)+R(TablePrivelege)+

N(column)*R(FieldSchema)+R(SerDeInfo)]

*N(table)+

[R(partition)+k*R(partition_params)+R(FileSchema)+

N(column)*R(PartitionColumnPrivelege)+R(PartitionColumnStatistics)+R(PartitionPrivelege)]

*N(partition)+

N(role)*R(role)

將R(x) 精簡爲R，則總計大小爲：

k*R*N(database)+2*R*N(column)*N(table)+R*N(column)*N(partition)+R*N(role)

=[k*N(database)+N(role)+2*N(column)*N(table)+N(column)*N(partition)]*R

Hive Metastore 代碼簡析

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Android研究之Activity組件

wordpress站點的統計

android度量相對於地球座標系的加速度

幾道面試到的算法題

數據庫插入百萬數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結