Hive表存儲格式的介紹和比較

一、四種存儲格式介紹

1、TestFile


 TextFile文件不支持塊壓縮,默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。這邊不做深入介紹。


2、RCFile


 Record Columnar的縮寫。是Hadoop中第一個列文件格式。能夠很好的壓縮和快速的查詢性能,但是不支持模式演進。通常

寫操作比較慢,比非列形式的文件格式需要更多的內存空間和計算量。

 RCFile是一種行列存儲相結合的存儲方式。首先,其將數據按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀

取多個block。其次,塊數據列式存儲,有利於數據壓縮和快速的列存取。


3、ORCFile


 存儲方式:數據按行分塊 每塊按照列存儲 ,壓縮快 快速列存取,效率比rcfile高,是rcfile的改良版本,相比RC能夠更好的壓

縮,能夠更快的查詢,但還是不支持模式演進。


4、Parquet


 Parquet能夠很好的壓縮,有很好的查詢性能,支持有限的模式演進。但是寫速度通常比較慢。這中文件格式主要是用在

Cloudera Impala上面的。


“RC ORC Parquet 格式比較和性能測試”可參照博客:

http://blog.csdn.net/colorant/article/details/53699822?locationNum=2&fps=1


二、四種存儲格式分析


1、分析結果數據表




sql編號:




2、讀操作效率分析結果






3、存儲效率分析結果





發佈了28 篇原創文章 · 獲贊 9 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章