原创 如何在Spark中實現Count Distinct重聚合

背景Count Distinct是SQL查詢中經常使用的聚合統計方式,用於計算非重複結果的數目。由於需要去除重複結果,Count Distinct的計算通常非常耗時。以如下查詢爲例,Count Distinct的實現方式主要有兩種:SELE