以下方法使用scala, df類型爲Dataframe
常用的包:
import org.apache.spark.sql.functions._
import spark.implicits._
1. 新增一列
df = df.withColumn("new col", lit(null)), //新的一列名字爲"new col", 使用空值進行填充
2. 列名重新命名
df = df.withColumnRenamed("舊列名", "新列名")
3. 根據條件進行判斷來對Dataframe中某列的值進行填充
df = df.withColumn("需要進行填充的列名", when(條件判斷, $"用於填充的列名")
.otherwise($"用於填充的列名"))
4. 刪除一列
df = df.drop("列a", "列B")
5. 兩個dataframe進行關聯
df3 = df1.join(df2, seq("關聯的列"), "left")
6. 分組之後計算最小值
df = df.groupBy("order_no", "seq_no", "product_code").agg(("diff_Date", "min"))
7. 篩選符合條件的數據
df = df.where($"cancel_dt".isNotNull)
8. 選出指定列
df = df.select("cancel_dt")