一、四種存儲格式介紹
1、TestFile
TextFile文件不支持塊壓縮,默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。這邊不做深入介紹。
2、RCFile
Record Columnar的縮寫。是Hadoop中第一個列文件格式。能夠很好的壓縮和快速的查詢性能,但是不支持模式演進。通常
寫操作比較慢,比非列形式的文件格式需要更多的內存空間和計算量。
RCFile是一種行列存儲相結合的存儲方式。首先,其將數據按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀
取多個block。其次,塊數據列式存儲,有利於數據壓縮和快速的列存取。
3、ORCFile
存儲方式:數據按行分塊 每塊按照列存儲 ,壓縮快 快速列存取,效率比rcfile高,是rcfile的改良版本,相比RC能夠更好的壓
縮,能夠更快的查詢,但還是不支持模式演進。
4、Parquet
Parquet能夠很好的壓縮,有很好的查詢性能,支持有限的模式演進。但是寫速度通常比較慢。這中文件格式主要是用在
Cloudera Impala上面的。
http://blog.csdn.net/colorant/article/details/53699822?locationNum=2&fps=1
二、四種存儲格式分析
1、分析結果數據表
sql編號:
2、讀操作效率分析結果
3、存儲效率分析結果