給左表人工加一個id列,
然後按想join的列join,
最後按這個id列distinct就行了。
spark,在左表右表都有重複數據的情況下,left join之後數據數量等於左表
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
第四範式OpenMLDB: 拓展Spark源碼實現高性能Join
第四范式技术团队
2021-09-18 17:23:51
Apache Kyuubi PPMC燕青:爲什麼說這是開源最好的時代?
凌敏
2021-08-04 09:33:50
如何從Pandas遷移到Spark?這8個問答解決你所有疑問
Sanket Gupta
2021-06-18 08:03:55
伴魚實時計算平臺 Palink 的設計與實現
伴鱼技术团队
2021-06-13 07:03:55
提效7倍,Apache Spark 自適應查詢優化在網易的深度實踐及改進
尤夕多
2021-05-19 11:08:57
大數據技術升級脈絡及認知陷阱 | InfoQ 大咖說
InfoQ 中文站
2021-04-26 10:43:51
實時數據倉庫的發展、架構和趨勢
网易数帆
2021-04-02 09:43:51
大數據+雲:Kylin/Spark/Clickhouse/Hudi 的大佬們怎麼看?
apachekylin
2021-03-22 18:35:29
如何用Spark計算引擎執行FATE聯邦學習任務?
陈家豪
2021-03-22 18:34:37
估值突破280億美元!大數據獨角獸公司Databricks再獲10億美元融資
蔡芳芳
2021-02-02 03:03:58
數據傾斜?Spark 3.0 AQE專治各種不服
王知无
2021-01-21 19:33:54
Java近期新聞綜述:MicroProfile 4.1、Spring Boot更新、Kotlin、Scala、OpenJDK、Liberica JDK
Michael Redlich
2021-08-13 11:29:03
InfoQ 編程語言 2 月排行榜,更好的投票活動來了
InfoQ 中文站
2021-03-22 18:34:58
24小時熱門文章