Spark SQL概念與組成概述

原創

2018-08-27 09:12

1、Spark SQL概念

Spark SQL是Spark爲結構化數據處理而引入的編程模塊，提供了一個稱爲DataFrame的編程抽象，並且可以充當分佈式SQL查詢引擎。

2、Spark SQL組成

1）DataFrame

是一個分佈式數據集合，被組織成命名列，相當於具有良好優化技術的關係表。

2）Core

處理數據的輸入輸出，從不同的數據源獲取數據（RDD、Parquet、Json等），將查詢結果輸出成schemaRDD。

3）Catalyst

處理查詢語句的整個處理過程，包括解析、綁定、優化、物理計劃等。

4）Hive

處理Hive數據。

5）Hive-ThriftServer

提供CLI和JDBC/ODBC接口。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章