Spark SQL概念與組成概述

1Spark SQL概念

Spark SQLSpark爲結構化數據處理而引入的編程模塊,提供了一個稱爲DataFrame的編程抽象,並且可以充當分佈式SQL查詢引擎。

2Spark SQL組成

1DataFrame

是一個分佈式數據集合,被組織成命名列,相當於具有良好優化技術的關係表。

2Core

處理數據的輸入輸出,從不同的數據源獲取數據(RDDParquetJson等),將查詢結果輸出成schemaRDD

3Catalyst

處理查詢語句的整個處理過程,包括解析、綁定、優化、物理計劃等。

4Hive

處理Hive數據。

5Hive-ThriftServer

提供CLIJDBC/ODBC接口。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章