1、Spark SQL概念
Spark SQL是Spark爲結構化數據處理而引入的編程模塊,提供了一個稱爲DataFrame的編程抽象,並且可以充當分佈式SQL查詢引擎。
2、Spark SQL組成
1)DataFrame
是一個分佈式數據集合,被組織成命名列,相當於具有良好優化技術的關係表。
2)Core
處理數據的輸入輸出,從不同的數據源獲取數據(RDD、Parquet、Json等),將查詢結果輸出成schemaRDD。
3)Catalyst
處理查詢語句的整個處理過程,包括解析、綁定、優化、物理計劃等。
4)Hive
處理Hive數據。
5)Hive-ThriftServer
提供CLI和JDBC/ODBC接口。