Impala初入門

目錄

 

什麼是Impala:

Impala的優點:

 Impala的功能:


參考Impala-中文文檔-http://www.dba.cn/book/impala/IMPALAJiaoCheng/IMPALAGaiShu.html

什麼是Impala:
 

Impala 是用於存儲在Hadoop集羣中的大量數據的MPP(大規模並行處理)sql查詢引擎。換句話說,Impala是性能最高的SQL引擎(提供類似RDBMS的體現),它提供了訪問存儲在Hadoop分佈式文件系統中的數據的最快方法。

 

不同於Hive,Impala不基於MapReduce,它提供了一個分佈式架構,他負責在同一臺機器上運行的查詢執行的所有方面。因此它減少了使用MapReduce的延遲,這使得Impala比Hive快。

Impala的優點:
 

以下是Cloudera Impala的一些值得注意的優點的列表。

  • 使用impala,您可以使用傳統的SQL知識以極快的速度處理存儲在HDFS中的數據。

  • 由於在數據駐留(在Hadoop集羣上)時執行數據處理,因此在使用Impala時,不需要對存儲在Hadoop上的數據進行數據轉換和數據移動。

  • 使用Impala,您可以訪問存儲在HDFS,HBase和Amazon s3中的數據,而無需瞭解Java(MapReduce作業)。您可以使用SQL查詢的基本概念訪問它們。

  • 爲了在業務工具中寫入查詢,數據必須經歷複雜的提取 - 變換負載(ETL)週期。但是,使用Impala,此過程縮短了。加載和重組的耗時階段通過新技術克服,如探索性數據分析和數據發現,使過程更快。

  • Impala正在率先使用Parquet文件格式,這是一種針對數據倉庫場景中典型的大規模查詢進行優化的柱狀存儲佈局。

 Impala的功能:

-支持內存數據處理,訪問hdfs文件,無需移動

--類SQL查詢

--更快

-支持各種(多種)文件格式。

 

與關係型數據庫相比:
-無法更新和刪除單個記錄

-不支持事務

-不支持索引

 

缺點:
不提供對序列化和反序列化的支持。

只能讀取文本文件,不能讀取自定義的二進制文件

每當新的記錄/文件被添加到HDFS中的數據目錄時,該表需要被刷新。

 

--寫點匆忙,很爛-之後再補充。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章