API
移除掉 ExecutionConfig 中過期的方法
移除掉了 ExecutionConfig#isLatencyTrackingEnabled
方法, 你可以使用 ExecutionConfig#getLatencyTrackingInterval
方法代替.
移除掉了 ExecutionConfig#enable/disableSysoutLogging
、ExecutionConfig#set/isFailTaskOnCheckpointError
過期的方法。
移除掉了 -q
CLI 參數。
移除掉過期的 RuntimeContext#getAllAccumulators
方法
過期的 RuntimeContext#getAllAccumulators
方法被移除掉了,請使用 RuntimeContext#getAccumulator
方法作爲代替。
由於數據丟失的風險把 CheckpointConfig#setPreferCheckpointForRecovery
方法標爲過期
CheckpointConfig#setPreferCheckpointForRecovery
方法標記爲過期了, 因爲作業在進行恢復時,如果使用較舊的 Checkpoint 狀態而不使用新的 Save point 狀態數據,可能會導致數據丟失。
FLIP-134: DataStream API 的批處理執行
-
允許在
KeyedStream.intervalJoin()
的配置時間屬性,在 Flink 1.12 之前KeyedStream.intervalJoin()
算子的時間屬性依賴於全局設置的時間屬性。在 Flink 1.12 中我們可以在 IntervalJoin 方法後加上inProcessingTime()
或inEventTime()
,這樣 Join 就不再依賴於全局的時間屬性。 -
在 Flink 1.12 中將 DataStream API 的
timeWindow()
方法標記爲過期,請使用window(WindowAssigner)
、TumblingEventTimeWindows
、SlidingEventTimeWindows
、TumblingProcessingTimeWindows
或者SlidingProcessingTimeWindows
。 -
將
StreamExecutionEnvironment.setStreamTimeCharacteristic()
和TimeCharacteristic
方法標記爲過期。在 Flink 1.12 中,默認的時間屬性改變成 EventTime 了,於是你不再需要該方法去開啓 EventTime 了。在 EventTime 時間屬性下,你使用 processing-time 的 windows 和 timers 也都依舊會生效。如果你想禁用水印,請使用ExecutionConfig.setAutoWatermarkInterval(long)
方法。如果你想使用IngestionTime
,請手動設置適當的 WatermarkStrategy。如果你使用的是基於時間屬性更改行爲的通用 'time window' 算子(eg:KeyedStream.timeWindow()
),請使用等效操作明確的指定處理時間和事件時間。 -
允許在 CEP PatternStream 上顯式配置時間屬性在 Flink 1.12 之前,CEP 算子裏面的時間依賴於全局配置的時間屬性,在 1.12 之後可以在 PatternStream 上使用
inProcessingTime()
或inEventTime()
方法。
API 清理
-
移除了 UdfAnalyzer 配置,移除了
ExecutionConfig#get/setCodeAnalysisMode
方法和SkipCodeAnalysis
類。 -
移除了過期的
DataStream#split
方法,該方法從很早的版本中已經標記成爲過期的了,你可以使用 Side Output 來代替。 -
移除了過期的
DataStream#fold()
方法和其相關的類,你可以使用更加高性能的DataStream#reduce
。
擴展 CompositeTypeSerializerSnapshot 以允許複合序列化器根據外部配置遷移
不再推薦使用 CompositeTypeSerializerSnapshot 中的 isOuterSnapshotCompatible(TypeSerializer)
方法,推薦使用 OuterSchemaCompatibility#resolveOuterSchemaCompatibility(TypeSerializer)
方法。
將 Scala Macros 版本升級到 2.1.1
Flink 現在依賴 Scala Macros 2.1.1,意味着不再支持 Scala 版本小於 2.11.11。
SQL
對 aggregate 函數的 SQL DDL 使用新類型推斷
aggregate 函數的 CREATE FUNCTION
DDL 現在使用新類型推斷,可能有必要將現有實現更新爲新的反射類型提取邏輯,將 StreamTableEnvironment.registerFunction
標爲過期。
更新解析器模塊 FLIP-107
現在 METADATA
屬於保留關鍵字,記得使用反引號轉義。
將內部 aggregate 函數更新爲新類型
使用 COLLECT 函數的 SQL 查詢可能需要更新爲新類型的系統。
Connectors 和 Formats
移除 Kafka 0.10.x 和 0.11.x Connector
在 Flink 1.12 中,移除掉了 Kafka 0.10.x 和 0.11.x Connector,請使用統一的 Kafka Connector(適用於 0.10.2.x 版本之後的任何 Kafka 集羣),你可以參考 Kafka Connector 頁面的文檔升級到新的 Flink Kafka Connector 版本。
CSV 序列化 Schema 包含行分隔符
csv.line-delimiter
配置已經從 CSV 格式中移除了,因爲行分隔符應該由 Connector 定義而不是由 format 定義。如果用戶在以前的 Flink 版本中一直使用了該配置,則升級到 Flink 1.12 時,應該刪除該配置。
升級 Kafka Schema Registry Client 到 5.5.0 版本
flink-avro-confluent-schema-registry
模塊不再在 fat-jar 中提供,你需要顯式的在你自己的作業中添加該依賴,SQL-Client 用戶可以使用flink-sql-avro-confluent-schema-registry
fat jar。
將 Avro 版本從 1.8.2 升級到 1.10.0 版本
flink-avro
模塊中的 Avro 版本升級到了 1.10,如果出於某種原因要使用較舊的版本,請在項目中明確降級 Avro 版本。
注意:我們觀察到,與 1.8.2 相比,Avro 1.10 版本的性能有所下降,如果你擔心性能,並且可以使用較舊版本的 Avro,那麼請降級 Avro 版本。
爲 SQL Client 打包 flink-avro
模塊時會創建一個 uber jar
SQL Client jar 會被重命名爲 flink-sql-avro-1.12.jar
,以前是 flink-avro-1.12-sql-jar.jar
,而且不再需要手動添加 Avro 依賴。
Deployment(部署)
默認 Log4j 配置了日誌大小超過 100MB 滾動
默認的 log4j 配置現在做了變更:除了在 Flink 啓動時現有的日誌文件滾動外,它們在達到 100MB 大小時也會滾動。Flink 總共保留 10 個日誌文件,從而有效地將日誌目錄的總大小限制爲 1GB(每個 Flink 服務記錄到該目錄)。
默認在 Flink Docker 鏡像中使用 jemalloc
在 Flink 的 Docker 鏡像中,jemalloc 被用作默認的內存分配器,以減少內存碎片問題。用戶可以通過將 disable-jemalloc
標誌傳遞給 docker-entrypoint.sh
腳本來回滾使用 glibc。有關更多詳細信息,請參閱 Docker 文檔上的 Flink。
升級 Mesos 版本到 1.7
將 Mesos 依賴版本從 1.0.1 版本升級到 1.7.0 版本。
如果 Flink 進程在超時後仍未停止,則發送 SIGKILL
在 Flink 1.12 中,如果 SIGTERM 無法成功關閉 Flink 進程,我們更改了獨立腳本的行爲以發出 SIGKILL。
介紹非阻塞作業提交
提交工作的語義略有變化,提交調用幾乎立即返回,並且作業處於新的 INITIALIZING 狀態,當作業處於該狀態時,對作業做 Savepoint 或者檢索作業詳情信息等操作將不可用。
一旦創建了該作業的 JobManager,該作業就處於 CREATED 狀態,並且所有的調用均可用。
Runtime
FLIP-141: Intra-Slot Managed Memory 共享
python.fn-execution.buffer.memory.size
和 python.fn-execution.framework.memory.size
的配置已刪除,因此不再生效。除此之外,python.fn-execution.memory.managed
默認的值更改爲 true
, 因此默認情況下 Python workers 將使用託管內存。
FLIP-119 Pipelined Region Scheduling
從 Flink 1.12 開始,將以 pipelined region 爲單位進行調度。pipelined region 是一組流水線連接的任務。這意味着,對於包含多個 region 的流作業,在開始部署任務之前,它不再等待所有任務獲取 slot。取而代之的是,一旦任何 region 獲得了足夠的任務 slot 就可以部署它。對於批處理作業,將不會爲任務分配 slot,也不會單獨部署任務。取而代之的是,一旦某個 region 獲得了足夠的 slot,則該任務將與所有其他任務一起部署在同一區域中。
可以使用 jobmanager.scheduler.scheduling-strategy:legacy
啓用舊的調度程序。
RocksDB optimizeForPointLookup 導致丟失時間窗口
默認情況下,我們會將 RocksDB 的 ReadOptions 的 setTotalOrderSeek 設置爲true,以防止用戶忘記使用 optimizeForPointLookup。同時,我們支持通過RocksDBOptionsFactory 自定義 ReadOptions。如果觀察到任何性能下降,請將 setTotalOrderSeek 設置爲 false(根據我們的測試,這是不可能的)。
自定義 OptionsFactory 設置似乎對 RocksDB 沒有影響
過期的 OptionsFactory 和 ConfigurableOptionsFactory 類已移除,請改用 RocksDBOptionsFactory 和 ConfigurableRocksDBOptionsFactory。如果有任何擴展 DefaultConfigurableOptionsFactory 的類,也請重新編譯你的應用程序代碼。