Hive 幾個概念的理解

Hive中主要抱哈四類數據模型:表(Table),外部表(External Table),分區(Partition)和桶(Bucket)

  • 創建表的操作:

        表創建和數據加載兩個步驟(可在一個語句中完成),在數據加載過程中,實際數據會移動到數倉目錄中,之後的數據訪問將直接在數倉目錄中完成,刪除表時,表中的數據和元數據都會同時刪除。

  • 創建外部表的操作:

        只有一個步驟,家在數據和創建表同時完成,數據實際存儲在創建語句LOCATION指定的HDFS路徑中,並不會移動到數據倉庫中,如果刪除一個外部表,僅刪除元數據,表中的數據不會刪除。

 

Hive元數據存儲方式

  • 單用戶模式(Single User Mode),存儲在本地內存數據庫Derby中,一般用於單元測試
  • 多用戶模式(Multi User Mode),通過網絡連接到一個數據庫中,常用模式,不能支持多個Hive同時操作元數據
  • 遠程服務模式(Remote Server Mode),在服務端啓動一個MetaStoreServer,在客戶端利用Thrift協議通過MetaStoreServer訪問元數據庫
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章