Flink分區策略

原創

全宇宙的骄傲

2020-06-07 18:21

目前Flink支持8種分區策略：

GlobalPartitioner： 數據會被分發到下游算子的第一個實例中進行處理。
ShufflePartitioner ：數據會被隨機分發到下游算子的每一個實例中進行。
RebalancePartitioner： 數據會被循環發送到下游的每一個實例中進行處理。
RescalePartitioner ：這種分區器會根據上下游算子的並行度，循環的方式輸出到下游算子的每個實例。這裏有點難以理解，假設上游並行度爲 2，編號爲 A 和 B。下游並行度爲 4，編號爲 1，2，3，4。那麼 A 則把數據循環發送給 1 和 2，B 則把數據循環發送給 3 和 4。假設上游並行度爲 4，編號爲 A，B，C，D。下游並行度爲 2，編號爲 1，2。那麼 A 和 B 則把數據發送給 1，C 和 D 則把數據發送給 2。
BroadcastPartitioner ：廣播分區會將上游數據輸出到下游算子的每個實例中。適合於大數據集和小數據集做Jion的場景。

ForwardPartitioner：用於將記錄輸出到下游本地的算子實例。它要求上下游算子並行度一樣。簡單的說，ForwardPartitioner用來做數據的控制檯打印。
KeyGroupStreamPartitioner ：Hash 分區器。會將數據按Key的Hash值輸出到下游算子實例中。
CustomPartitionerWrapper：用戶自定義分區器。需要用戶自己實現 Partitioner 接口，來定義自己的分區邏輯。

static class CustomPartitioner implements Partitioner<String> { 
    @Override 
    public int partition(String key, int numPartitions) { 
        switch (key){ 
            case "1": return 1;
            case "2": return 2;
            case "3": return 3;
            default : return 4;
        }
    }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Flink 三種狀態存儲方式 MemoryStateBackend、FsStateBackend、RocksDBStateBackend

StateBackend的意思是狀態後端。狀態後端定義了流式應用程序狀態如何存儲和checkpoint的。不同的狀態後端以不同的方式來存儲其狀態，並且使用不同的數據結構來保存正在運行的應用程序的狀態。 MemoryStateBack

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet partitionByRange sortPartition 用法實例

package DataSetPartitionTest1; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink ClassNotFoundException BatchTableEnvironmentImpl 報錯解決方法

Exception in thread "main" org.apache.flink.table.api.TableException: Create BatchTableEnvironment failed. at org.a

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存廣播變量區別

區別: 1.廣播變量是基於內存的,是將變量分發到各個worker節點的內存上（避免多次複製，節省內存） 2.分佈式緩存是基於磁盤的,將文件copy到各個節點上,當函數運行時可以在本地文件系統檢索該文件（避免多次複製，提高執行效率）分

二十六画生的博客

2020-07-07 23:55:04

Flink 廣播變量實例

版本： flink1.9.2,java1.8 廣播變量用於DataSet： package BroadCast; import org.apache.flink.api.common.functions.RichMapFunction

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存實例

版本： flink1.9.2,java1.8 package DistributedCache; import org.apache.commons.io.FileUtils; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink 數據類型 & TypeInformation信息

原生數據類型 Java Tuples類型 Scala Case Class類型 POJOs 類型 Flink Value類型特殊數據類型 Scala API類型信息 Java API類型信息自定義TypeInformation Fli

程序猿进阶

2020-07-08 06:02:55

Flink的WaterMark詳解

WaterMark是什麼？在瞭解Flink的WaterMark之前先要了解Flink的時間語義。在Flink裏面有三種時間語義： ①Even Time：事件創建的時間，時間在數據裏面。 ②Ingestion Time：數據進

情深不仅李义山

2020-07-08 01:13:18

flink sql實例， TableException: Create BatchTableEnvironment failed.報錯

package SQL; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State ，Operator State 作用區別用法

Flink的State類型基本類型劃分：在Flink中，按照基本類型，對State做了以下兩類的劃分： Keyed State，和Key有關的狀態類型，它只能被基於KeyedStream之上的操作，方法所使用。我們可以從邏輯上理解這

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現CheckpointedFunction

public interface CheckpointedFunction { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化 void snapshotSt

二十六画生的博客

2020-07-07 23:55:04

Flink 累加器實例

每個並行的任務實例下有各自的累加器，獲取最終值時會把各個並行任務的累加器的值求和。（一個並行度對應一個累加器）版本: flink1.9.2 java1.8 map並行度1: package Counter; import or

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet first groupBy sortGroup 用法實例

public class CoGroupDataSetTest { public static void main(String[] args) throws Exception { ExecutionEnv

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State 實例

1 sourceStream必須要先keyBy然後才能使用Keyed State 2 需要繼承RichxxxxFunction纔行，在open之前聲明，在open中初始化，在算子方法中使用和處理。不能繼承xxxxxFunction，因爲沒

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現ListCheckpointed

public interface ListCheckpointed<T extends Serializable> { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化

二十六画生的博客

2020-07-07 23:55:04

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章