spark Dataframe數據處理常用方法總結

以下方法使用scala, df類型爲Dataframe

常用的包:

import org.apache.spark.sql.functions._
import spark.implicits._

1. 新增一列

df = df.withColumn("new col", lit(null)),  //新的一列名字爲"new col", 使用空值進行填充

2. 列名重新命名

df = df.withColumnRenamed("舊列名", "新列名")

3. 根據條件進行判斷來對Dataframe中某列的值進行填充

df = df.withColumn("需要進行填充的列名", when(條件判斷, $"用於填充的列名")
  .otherwise($"用於填充的列名"))

4. 刪除一列

df = df.drop("列a", "列B")

5. 兩個dataframe進行關聯

df3 = df1.join(df2, seq("關聯的列"), "left")

6. 分組之後計算最小值

df = df.groupBy("order_no", "seq_no", "product_code").agg(("diff_Date", "min"))

7. 篩選符合條件的數據

df = df.where($"cancel_dt".isNotNull)

8. 選出指定列

df = df.select("cancel_dt")

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章