原创 Flink-支持的數據類型和實現UDF函數(更細粒度的控制流)

支持的數據類型 Flink流應用程序處理的是以數據對象表示的事件流。所以在Flink內部,我們需要能夠處理這些對象。它們需要被序列化和反序列化,以便通過網絡傳送它們;或者從狀態後端、檢查點和保存點讀取它們。爲了有效地做到這一點,F

原创 Flink-狀態編程和容錯機制 | 算子狀態和鍵控狀態的介紹及數據結構 | 狀態的定義及使用

GitHub代碼 https://github.com/SmallScorpion/flink-tutorial.git 狀態編程和容錯機制 流式計算分爲無狀態和有狀態兩種情況。無狀態的計算觀察每個獨立事件,並根據最後一個事件輸出

原创 Flink-Sink的簡單五種輸出對象-文件、kafka、Redis、Elasticserach、MySQL

代碼到GitHub:https://github.com/SmallScorpion/flink-tutorial.git Sink Flink沒有類似於spark中foreach方法,讓用戶進行迭代的操作。雖有對外的輸出操作都要

原创 Flink-狀態一致性 | 狀態一致性分類 | 端到端狀態一致性 | 冪等寫入 | 事務寫入 | WAL | 2PC

狀態一致性 當在分佈式系統中引入狀態時,自然也引入了一致性問題。一致性實際上是"正確性級別"的另一種說法,也就是說在成功處理故障並恢復之後得到的結果,與沒有發生任何故障時得到的結果相比,前者到底有多正確?舉例來說,假設要對最近一小

原创 Flink-容錯機制 | 一致性檢查點 | 檢查點到恢復狀態過程 | Flink檢查點算法(Chandy-Lamport) | 算法操作解析 | 保存點簡介

一致性檢查點(Checkpoints) Flink 故障恢復機制的核心,就是應用狀態的一致性檢查點 有狀態流應用的一致檢查點,其實就是所有任務的狀態,在某個時間點的一份拷貝(一份快照);這個時間點,應該是所有任務都恰好處理

原创 Flink-Window概述 | Window類型 | TimeWindow、CountWindow、SessionWindow、WindowFunction

>代碼GitHub:https://github.com/SmallScorpion/flink-tutorial.git Window概述 streaming流式計算是一種被設計用於處理無限數據集的數據處理引擎,而無限數據集是

原创 Flink-運行時架構中的四大組件|任務提交流程|任務調度原理|Slots和並行度中間的關係|數據流|執行圖|數據得傳輸形式|任務鏈

Flink運行時架構主要包括四個不同的組件,它們會在運行流處理應用程序時協同工作:作業管理器(JobManager)、資源管理器(ResourceManager)、任務管理器(TaskManager),以及分發器(Dispatch

原创 Flink-Standalone模式提交任務|配置Slots大小

並行度設置 其中keyBy不能設置會報錯,因爲keyBy不屬於一個常規的任務算子,不需要做計算,只是做一個規則匹配,按照字段第一個進行合併,其他的算子都可以用setParallelism()進行設置並行度(爲一個任務的subtas

原创 Spark實時項目第八天-DWS層訂單明細實付金額分攤(雙流合併)

需求 主訂單的應付金額【origin_total_amount】一般是由所有訂單明細的商品單價數量彙總【sku_pricesku_num】組成。 但是由於優惠、運費等都是以訂單爲單位進行計算的,所以減掉優惠、加上運費會得到一個最終

原创 Spark實時項目第九天-ADS層實現熱門品牌統計

分析 數據庫的選型 創建數據庫 create database spark_gmall_report CREATE TABLE `offset` ( `group_id` varchar(200) NOT NULL,

原创 Flink-Standalone模式的配置及啓動測試與查看

安裝解壓 下載地址 : https://flink.apache.org/downloads.html 這邊注意得是:如果下以前得版本(https://archive.apache.org/dist/flink/flink-1.7

原创 Flink-Flink簡介|Flink架構|事件驅動型|分層API|Spark Streming與Flink對比

Flink簡介 Flink起源於Stratosphere項目,Stratosphere是在2010~2014年由3所地處柏林的大學和歐洲的一些其他的大學共同進行的研究項目,2014年4月Stratosphere的代碼被複制並捐贈給

原创 Flink-創建Maven編寫流式處理和批處理得WordCount程序並測試

創建Maven並導入POM <dependencies> <dependency> <groupId>org.apache.flink</groupId> <arti

原创 Spark實時項目第六天-訂單表字段與地區表聯立

修改OrderInfoApp import com.alibaba.fastjson.{JSON, JSONObject} import com.atguigu.gmall.realtime.bean.{OrderInfo, Us

原创 Spark實施項目第七天-創建dw層訂單明細表且與sku、spu、商標、類別進行聯立

HBase中對四個維表進行建表 create table gmall_base_category3 ( id varchar primary key ,info.name varchar, info.category2_id v