走進大數據 | 淺談 Hadoop 的數據倉庫工具

　　Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供完整的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

　　Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載(ETL)，這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱爲 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。

　　Hive 和數據庫的比較

　　1. 查詢語言。由於 SQL 被廣泛的應用在數據倉庫中，因此，專門針對 Hive 的特性設計了類 SQL 的查詢語言 HQL。熟悉 SQL 開發的開發者可以很方便的使用 Hive 進行開發。

　　2. 數據存儲位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。

　　3. 數據格式。Hive 中沒有定義專門的數據格式，數據格式可以由用戶指定，用戶定義數據格式需要指定三個屬性：列分隔符(通常爲空格、”\t”、”\x001″)、行分隔符(”\n”)以及讀取文件數據的方法(Hive 中默認有三個文件格式 TextFile，SequenceFile 以及 RCFile)。由於在加載數據的過程中，不需要從用戶數據格式到 Hive 定義的數據格式的轉換，因此，Hive 在加載的過程中不會對數據本身進行任何修改，而只是將數據內容複製或者移動到相應的 HDFS 目錄中。而在數據庫中，不同的數據庫有不同的存儲引擎，定義了自己的數據格式。所有數據都會按照一定的組織存儲，因此，數據庫加載數據的過程會比較耗時。

　　4. 數據更新。由於 Hive 是針對數據倉庫應用設計的，而數據倉庫的內容是讀多寫少的。因此，Hive 中不支持對數據的改寫和添加，所有的數據都是在加載的時候中確定好的。而數據庫中的數據通常是需要經常進行修改的，因此可以使用INSERT INTO… VALUES 添加數據，使用 UPDATE …SET 修改數據。

　　5. 索引。之前已經說過，Hive 在加載數據的過程中不會對數據進行任何處理，甚至不會對數據進行掃描，因此也沒有對數據中的某些 Key 建立索引。Hive 要訪問數據中滿足條件的特定值時，需要暴力掃描整個數據，因此訪問延遲較高。由於 MapReduce 的引入， Hive 可以並行訪問數據，因此即使沒有索引，對於大數據量的訪問，Hive 仍然可以體現出優勢。數據庫中，通常會針對一個或者幾個列建立索引，因此對於少量的特定條件的數據的訪問，數據庫可以有很高的效率，較低的延遲。由於數據的訪問延遲較高，決定了 Hive 不適合在線數據查詢。

　　6. 執行。Hive 中大多數查詢的執行是通過 Hadoop 提供的 MapReduce 來實現的(類似 select * from tbl 的查詢不需要 MapReduce)。而數據庫通常有自己的執行引擎。

　　7. 執行延遲。之前提到，Hive 在查詢數據的時候，由於沒有索引，需要掃描整個表，因此延遲較高。另外一個導致 Hive 執行延遲高的因素是 MapReduce 框架。由於 MapReduce 本身具有較高的延遲，因此在利用 MapReduce 執行 Hive 查詢時，也會有較高的延遲。相對的，數據庫的執行延遲較低。當然，這個低是有條件的，即數據規模較小，當數據規模大到超過數據庫的處理能力的時候，Hive 的並行計算顯然能體現出優勢。

　　8.可擴展性。由於 Hive 是建立在 Hadoop 之上的，因此 Hive 的可擴展性是和 Hadoop 的可擴展性是一致的(世界上最大的 Hadoop 集羣在 Yahoo!，2009年的規模在 4000 臺節點左右)。而數據庫由於 ACID 語義的嚴格限制，擴展行非常有限。目前最先進的並行數據庫 Oracle 在理論上的擴展能力也只有 100 臺左右。

　　9. 數據規模。由於 Hive 建立在集羣上並可以利用 MapReduce 進行並行計算，因此可以支持很大規模的數據;對應的，數據庫可以支持的數據規模較小。

　　Hive的技術架構

　　由上圖可知，hadoop和mapreduce是hive架構的根基。Hive架構包括如下組件：CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)，這些組件我可以分爲兩大類：服務端組件和客戶端組件。

　　服務端組件：

　　Driver組件：該組件包括Complier、Optimizer和Executor，它的作用是將我們寫的HiveQL(類SQL)語句進行解析、編譯優化，生成執行計劃，然後調用底層的mapreduce計算框架。

　　Metastore組件：元數據服務組件，這個組件存儲hive的元數據，hive的元數據存儲在關係數據庫裏，hive支持的關係數據庫有derby、mysql。元數據對於hive十分重要，因此hive支持把metastore服務獨立出來，安裝到遠程的服務器集羣裏，從而解耦hive服務和metastore服務，保證hive運行的健壯性，這個方面的知識，我會在後面的metastore小節裏做詳細的講解。

　　Thrift服務：thrift是facebook開發的一個軟件框架，它用來進行可擴展且跨語言的服務的開發，hive集成了該服務，能讓不同的編程語言調用hive的接口。

　　客戶端組件：

　　CLI：command lineinterface，命令行接口。

　　Thrift客戶端：上面的架構圖裏沒有寫上Thrift客戶端，但是hive架構的許多客戶端接口是建立在thrift客戶端之上，包括JDBC和ODBC接口。

　　WEB GUI：hive客戶端提供了一種通過網頁的方式訪問hive所提供的服務。這個接口對應hive的hwi組件(hive web interface)，使用前要啓動hwi服務。

　　Hive 的數據存儲

　　首先，Hive 沒有專門的數據存儲格式，也沒有爲數據建立索引，用戶可以非常自由的組織 Hive 中的表，只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符，Hive 就可以解析數據。其次，Hive 中所有的數據都存儲在 HDFS 中，Hive 中包含以下數據模型：Table，External Table，Partition，Bucket。

　　Hive 中的 Table 和數據庫中的 Table 在概念上是類似的，每一個 Table 在 Hive 中都有一個相應的目錄存儲數據。例如，一個表 pvs，它在 HDFS 中的路徑爲：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的數據倉庫的目錄，所有的 Table 數據(不包括 External Table)都保存在這個目錄中。

　　Partition 對應於數據庫中的 Partition 列的密集索引，但是 Hive 中 Partition 的組織方式和數據庫中的很不相同。在 Hive 中，表中的一個 Partition 對應於表下的一個目錄，所有的 Partition 的數據都存儲在對應的目錄中。例如：pvs 表中包含 ds 和 city 兩個 Partition，則對應於 ds = 20090801, ctry = US 的 HDFS 子目錄爲：/wh/pvs/ds=20090801/ctry=US;對應於 ds = 20090801,ctry = CA 的 HDFS 子目錄爲;/wh/pvs/ds=20090801/ctry=CA

　　Buckets 對指定列計算 hash，根據 hash 值切分數據，目的是爲了並行，每一個 Bucket 對應一個文件。將 user 列分散至 32 個 bucket，首先對 user 列的值計算 hash，對應 hash 值爲 0 的 HDFS 目錄爲：/wh/pvs/ds=20090801/ctry=US/part-00000;hash 值爲 20 的 HDFS 目錄爲：/wh/pvs/ds=20090801/ctry=US/part-00020

　　External Table 指向已經在 HDFS中存在的數據，可以創建 Partition。它和 Table在元數據的組織上是相同的，而實際數據的存儲則有較大的差異。

　　Table 的創建過程和數據加載過程(這兩個過程可以在同一個語句中完成)，在加載數據的過程中，實際數據會被移動到數據倉庫目錄中;之後對數據對訪問將會直接在數據倉庫目錄中完成。刪除表時，表中的數據和元數據將會被同時刪除。

　　External Table 只有一個過程，加載數據和創建表同時完成(CREATE EXTERNAL TABLE ……LOCATION)，實際數據是存儲在 LOCATION 後面指定的 HDFS 路徑中，並不會移動到數據倉庫目錄中。

　　Hive 元數據存儲

　　Hive的metastore組件是hive元數據集中存放地。Metastore組件包括兩個部分：metastore服務和後臺數據的存儲。後臺數據存儲的介質就是關係數據庫，例如hive默認的嵌入式磁盤數據庫derby，還有mysql數據庫。Metastore服務是建立在後臺數據存儲介質之上，並且可以和hive服務進行交互的服務組件，默認情況下，metastore服務和hive服務是安裝在一起的，運行在同一個進程當中。我也可以把metastore服務從hive服務裏剝離出來，metastore獨立安裝在一個集羣裏，hive遠程調用metastore服務，這樣我們可以把元數據這一層放到防火牆之後，客戶端訪問hive服務，就可以連接到元數據這一層，從而提供了更好的管理性和安全保障。使用遠程的metastore服務，可以讓metastore服務和hive服務運行在不同的進程裏，這樣也保證了hive的穩定性，提升了hive服務的效率。

　　Hive 將元數據存儲在 RDBMS 中，有三種模式可以連接到數據庫：

　　Single User Mode：此模式連接到一個 In-memory 的數據庫 Derby，一般用於 Unit Test。

　　Multi User Mode：通過網絡連接到一個數據庫中，是最經常使用到的模式。

　　Remote Server Mode：用於非 Java 客戶端訪問元數據庫，在服務器端啓動一個 MetaStoreServer，客戶端利用 Thrift 協議通過 MetaStoreServer 訪問元數據庫。
　　

走進大數據 | 淺談 Hadoop 的數據倉庫工具

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

一個docker容器暴露多個端口

leetcode 60 排列序列

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

紫光雲基礎雲服務解析系列：雲存儲產品

【百博雲服務】計算進化加速度，華爲雲全新一代雲服務器正式商用

雲服務+應用智能+敏捷工作方式：加速企業數字化轉型

5G與雲服務——未來雲上的娛樂藍圖

企業雲服務究竟是怎樣的存在？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結