Hive中主要抱哈四類數據模型:表(Table),外部表(External Table),分區(Partition)和桶(Bucket)
- 創建表的操作:
表創建和數據加載兩個步驟(可在一個語句中完成),在數據加載過程中,實際數據會移動到數倉目錄中,之後的數據訪問將直接在數倉目錄中完成,刪除表時,表中的數據和元數據都會同時刪除。
- 創建外部表的操作:
只有一個步驟,家在數據和創建表同時完成,數據實際存儲在創建語句LOCATION指定的HDFS路徑中,並不會移動到數據倉庫中,如果刪除一個外部表,僅刪除元數據,表中的數據不會刪除。
Hive元數據存儲方式
- 單用戶模式(Single User Mode),存儲在本地內存數據庫Derby中,一般用於單元測試
- 多用戶模式(Multi User Mode),通過網絡連接到一個數據庫中,常用模式,不能支持多個Hive同時操作元數據
- 遠程服務模式(Remote Server Mode),在服務端啓動一個MetaStoreServer,在客戶端利用Thrift協議通過MetaStoreServer訪問元數據庫