pyspark dataframe 自定義分區器

 def myp(x):
 	return x % 100

 pp = F.udf(myp)
 df = spark.range(900)
 df.show()
 df = df.repartitionByRange(pp('id'))
 df.write.format('csv').save('output')

把 id%100 相等的數據放到一個partition

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章