原创 Error:scalac: Error: Error compiling the sbt component compiler-interface-2.11.8-55.0

錯誤 ```java Error:scalac: Error: Error compiling the sbt component ‘compiler-interface-2.11.8-55.0’ sbt.internal.inc

原创 用戶畫像代碼實操

GitHub: https://github.com/SmallScorpion/EcommerceUserProfile.git 表信息  用戶信息表(t_member)  用戶地址表(t_member_addr)  商品

原创 Flink電商項目第一天-電商用戶行爲分析及完整圖步驟解析-熱門商品統計TopN的實現

GitHub https://github.com/SmallScorpion/UserBehaviorAnalysis.git 批處理 批處理主要操作大容量靜態數據集,並在計算過程完成後返回結果。可以認爲,處理的是用一個固定時間

原创 Flink- 將錶轉換成DataStream | 查看執行計劃 | 流處理和關係代數的區別 | 動態表 | 流式持續查詢的過程 | 將流轉換成動態表 | 持續查詢 | 將動態錶轉換成 DS

GitHub https://github.com/SmallScorpion/flink-tutorial.git 將錶轉換成DataStream 表可以轉換爲 DataStream 或 DataSet ,這樣自定義流處理或批

原创 Flink-分組窗口 | Over Windows | SQL 中的 Group Windows | SQL 中的 Over Windows

窗口(Windows) 時間語義,要配合窗口操作才能發揮作用。最主要的用途,當然就是開窗口、根據時間段做計算了。下面我們就來看看Table API和SQL中,怎麼利用時間字段做窗口操作。 在Table API和SQL中,主要有兩

原创 Flink-函數 | 用戶自定義函數(UDF)標量函數 | 表函數 | 聚合函數 | 表聚合函數

GitHub https://github.com/SmallScorpion/flink-tutorial.git 函數(Functions) 用戶自定義函數(UDF) 用戶定義函數(User-defined Functi

原创 Flink-時間特性 | 定義處理時間的三種方式 | 定義事件時間的三種方式

時間特性(Time Attributes) 基於時間的操作(比如 Table API 和 SQL 中窗口操作),需要定義相關的時間語義和時間數據來源的信息 Table 可以提供一個邏輯上的時間字段,用於在表處理程序中,指示時間和

原创 Flink-將DataStream 轉換成表 | 創建臨時視圖 | 輸出到文件 | 輸出到Kafka | 更新模式

GitHub https://github.com/SmallScorpion/flink-tutorial.git 將 DataStream 轉換成表 Flink允許我們把Table和DataStream做轉換:我們可以基於一個

原创 Flink-Table API 和 Flink SQL簡介 | 新老版本Flink批流處理對比 | 讀取文件和Kafka消費數據 | API 和 SQL查詢表

GitHub https://github.com/SmallScorpion/flink-tutorial.git Table API 和 Flink SQL 是什麼 Flink 對批處理和流處理,提供了統一的上層 API T

原创 Flink-Transform(轉換算子)|Map|Reduce|Split和Select|Connect和CoMap|Union

代碼GitHub:https://github.com/SmallScorpion/flink-tutorial.git map val streamMap = stream.map { x => x * 2 } flatM

原创 Flink-狀態後端得定義及選擇 | 狀態編程求上次溫度與此次溫度對比相差指定額度進行報警 | 使用已有API實現

GitHub代碼 https://github.com/SmallScorpion/flink-tutorial.git 狀態後端(State Backends) 每傳入一條數據,有狀態的算子任務都會讀取和更新狀態 由於有效的狀

原创 Flink-時間語義與Wartmark及EventTime在Window中的使用

代碼GitHub:https://github.com/SmallScorpion/flink-tutorial.git Flink中的時間語義 Event Time:是事件創建的時間。它通常由事件中的時間戳描述,例如採集的日誌數

原创 Flink-Environment的三種方式和Source的四種讀取方式-從集合中、從kafka中、從文件中、自定義

Environment getExecutionEnvironment:創建一個執行環境,表示當前執行程序的上下文。 如果程序是獨立調用的,則此方法返回本地執行環境;如果從命令行客戶端調用程序以提交到集羣,則此方法返回此集羣的執行

原创 Flink-EventTime數據測試 | watermark、allowedLateness、sideOutputLateData 三重保證數據不丟失

程序代碼 import com.atguigu.bean.SensorReading import com.atguigu.window.MyReduceFunc import org.apache.flink.streaming

原创 Flink-側輸出流(SideOutput)及用側輸出流進行分流操作

GitHub https://github.com/SmallScorpion/flink-tutorial.git 側輸出流(SideOutput) 大部分的DataStream API的算子的輸出是單一輸出,也就是某種數據類型