Spark 系列（九）—— Spark SQL 之 Structured API

一、創建DataFrame和Dataset

1.1 創建DataFrame

Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 創建。創建後應用程序就可以從現有 RDD，Hive 表或 Spark 數據源創建 DataFrame。示例如下：

val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()

// 建議在進行 spark SQL 編程前導入下面的隱式轉換，因爲 DataFrames 和 dataSets 中很多操作都依賴了隱式轉換
import spark.implicits._

可以使用 spark-shell 進行測試，需要注意的是 spark-shell 啓動後會自動創建一個名爲 spark 的 SparkSession，在命令行中可以直接引用即可：

1.2 創建Dataset

Spark 支持由內部數據集和外部數據集來創建 DataSet，其創建方式分別如下：

1. 由外部數據集創建

// 1.需要導入隱式轉換
import spark.implicits._

// 2.創建 case class,等價於 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由外部數據集創建 Datasets
val ds = spark.read.json("/usr/file/emp.json").as[Emp]
ds.show()

2. 由內部數據集創建

// 1.需要導入隱式轉換
import spark.implicits._

// 2.創建 case class,等價於 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由內部數據集創建 Datasets
val caseClassDS = Seq(Emp("ALLEN", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0),
                      Emp("JONES", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0))
                    .toDS()
caseClassDS.show()

1.3 由RDD創建DataFrame

Spark 支持兩種方式把 RDD 轉換爲 DataFrame，分別是使用反射推斷和指定 Schema 轉換：

1. 使用反射推斷

// 1.導入隱式轉換
import spark.implicits._

// 2.創建部門類
case class Dept(deptno: Long, dname: String, loc: String)

// 3.創建 RDD 並轉換爲 dataSet
val rddToDS = spark.sparkContext
  .textFile("/usr/file/dept.txt")
  .map(_.split("\t"))
  .map(line => Dept(line(0).trim.toLong, line(1), line(2)))
  .toDS()  // 如果調用 toDF() 則轉換爲 dataFrame

2. 以編程方式指定Schema

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// 1.定義每個列的列類型
val fields = Array(StructField("deptno", LongType, nullable = true),
                   StructField("dname", StringType, nullable = true),
                   StructField("loc", StringType, nullable = true))

// 2.創建 schema
val schema = StructType(fields)

// 3.創建 RDD
val deptRDD = spark.sparkContext.textFile("/usr/file/dept.txt")
val rowRDD = deptRDD.map(_.split("\t")).map(line => Row(line(0).toLong, line(1), line(2)))

// 4.將 RDD 轉換爲 dataFrame
val deptDF = spark.createDataFrame(rowRDD, schema)
deptDF.show()

1.4 DataFrames與Datasets互相轉換

Spark 提供了非常簡單的轉換方法用於 DataFrame 與 Dataset 間的互相轉換，示例如下：

# DataFrames轉Datasets
scala> df.as[Emp]
res1: org.apache.spark.sql.Dataset[Emp] = [COMM: double, DEPTNO: bigint ... 6 more fields]

# Datasets轉DataFrames
scala> ds.toDF()
res2: org.apache.spark.sql.DataFrame = [COMM: double, DEPTNO: bigint ... 6 more fields]

二、Columns列操作

2.1 引用列

Spark 支持多種方法來構造和引用列，最簡單的是使用 col() 或 column() 函數。

col("colName")
column("colName")

// 對於 Scala 語言而言，還可以使用$"myColumn"和'myColumn 這兩種語法糖進行引用。
df.select($"ename", $"job").show()
df.select('ename, 'job).show()

2.2 新增列

// 基於已有列值新增列
df.withColumn("upSal",$"sal"+1000)
// 基於固定值新增列
df.withColumn("intCol",lit(1000))

2.3 刪除列

// 支持刪除多個列
df.drop("comm","job").show()

2.4 重命名列

df.withColumnRenamed("comm", "common").show()

需要說明的是新增，刪除，重命名列都會產生新的 DataFrame，原來的 DataFrame 不會被改變。

三、使用Structured API進行基本查詢

// 1.查詢員工姓名及工作
df.select($"ename", $"job").show()

// 2.filter 查詢工資大於 2000 的員工信息
df.filter($"sal" > 2000).show()

// 3.orderBy 按照部門編號降序，工資升序進行查詢
df.orderBy(desc("deptno"), asc("sal")).show()

// 4.limit 查詢工資最高的 3 名員工的信息
df.orderBy(desc("sal")).limit(3).show()

// 5.distinct 查詢所有部門編號
df.select("deptno").distinct().show()

// 6.groupBy 分組統計部門人數
df.groupBy("deptno").count().show()

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

// 1.首先需要將 DataFrame 註冊爲臨時視圖
df.createOrReplaceTempView("emp")

// 2.查詢員工姓名及工作
spark.sql("SELECT ename,job FROM emp").show()

// 3.查詢工資大於 2000 的員工信息
spark.sql("SELECT * FROM emp where sal > 2000").show()

// 4.orderBy 按照部門編號降序，工資升序進行查詢
spark.sql("SELECT * FROM emp ORDER BY deptno DESC,sal ASC").show()

// 5.limit  查詢工資最高的 3 名員工的信息
spark.sql("SELECT * FROM emp ORDER BY sal DESC LIMIT 3").show()

// 6.distinct 查詢所有部門編號
spark.sql("SELECT DISTINCT(deptno) FROM emp").show()

// 7.分組統計部門人數
spark.sql("SELECT deptno,count(ename) FROM emp group by deptno").show()

4.2 全局臨時視圖

上面使用 createOrReplaceTempView 創建的是會話臨時視圖，它的生命週期僅限於會話範圍，會隨會話的結束而結束。

你也可以使用 createGlobalTempView 創建全局臨時視圖，全局臨時視圖可以在所有會話之間共享，並直到整個 Spark 應用程序終止後纔會消失。全局臨時視圖被定義在內置的 global_temp 數據庫下，需要使用限定名稱進行引用，如 SELECT * FROM global_temp.view1。

// 註冊爲全局臨時視圖
df.createGlobalTempView("gemp")

// 使用限定名稱進行引用
spark.sql("SELECT ename,job FROM global_temp.gemp").show()

參考資料

Spark SQL, DataFrames and Datasets Guide > Getting Started

更多大數據系列文章可以參見 GitHub 開源項目： 大數據入門指南

Spark 系列（九）—— Spark SQL 之 Structured API

一、創建DataFrame和Dataset

1.1 創建DataFrame

1.2 創建Dataset

1. 由外部數據集創建

2. 由內部數據集創建

1.3 由RDD創建DataFrame

1. 使用反射推斷

2. 以編程方式指定Schema

1.4 DataFrames與Datasets互相轉換

二、Columns列操作

2.1 引用列

2.2 新增列

2.3 刪除列

2.4 重命名列

三、使用Structured API進行基本查詢

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

4.2 全局臨時視圖

參考資料

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

詳解 MySQL 面試核心知識點

圖解 JVM 核心知識點（面試版）

Spark 系列（十）—— Spark SQL 外部數據源

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

Spark 系列（九）—— Spark SQL 之 Structured API

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結