台部落会编程的海贼王

1. 關於SparkSql的相關用法請參考 https://blog.csdn.net/weixin_37835915/article/details/103531043 https://blog.csdn.net/weixin_378

2020-06-15 10:59:23

注意：需要引入spark-hive的依賴目錄第一部分:自定義函數（常用的一些窗體函數）第二部分：自定義聚合函數（弱類型）第三部分：自定義聚合函數（強類型） package com.spark.self import o

2020-06-15 10:59:23

目錄第一步：準備zookeeper環境第二步：準備kafka環境第三步：開發代碼第四步：啓動SparkStreaming 程序第五步：生產數據，如下所示：總結：第一步：準備zookeeper環境（1）下載 zookee

2020-06-15 10:59:23

1.搭建Kafka 環境：可參考 https://blog.csdn.net/weixin_37835915/article/details/103786157 （1）啓動zookeeper （2）啓動kafka （3）創建topic

2020-06-15 10:59:23

目錄 1. kafka 環境的搭建請參考： 2. 準備KafkaSink 3.實現代碼： 4 總結： 1. kafka 環境的搭建請參考： https://blog.csdn.net/weixin_37835915/article/d

2020-06-15 10:59:23

1. 準備數據： score.csv數據如下： 01,01,80 01,02,90 01,03,99 02,01,70 02,02,60 02,03,80 03,01,80 03,02,80 03,03,80 04,01,50 04,0

2020-06-15 10:59:23

一：簡介一種分佈式的基於發佈/訂閱的消息系統二：場景常用組合：常用 flume （收集數據） --> kafka（把收集來的數據存儲到kafka） --> spark Streaming（使用spark Streaming

2020-06-15 10:59:23

一. 簡介 Flume 是一個分佈式，可彈性的彈性系統，用於高效收集、匯聚和移動大規模日誌信息從不同的數據源到一個集中的數據存儲中心（HDFS,Hbase）注意：數據由agent收集，二.Flume event Flum

2020-06-15 10:59:23

1.spark 是什麼？基於內存的分佈式並行的計算框架（還有 mapReduce, storm(目前用的少)） spark 的吞吐量更大，但是有秒級別的延遲（storm 是毫秒級的延遲，Flink 也是毫秒級的延遲） executor

2020-02-22 11:08:05

************第一步：準備json文件，和txt文件內容如下******** *json 文件：* {"name":"Michael"}, {"name":"Andy", "age":30}, {"name":"Just

2020-02-22 11:08:05

目錄一：簡介二：爲什麼選擇Flink 三：哪些行業需要四：Flink的特點五：與sparkStreaming的區別六：初步開發七：Flink配置說明八：環境九：運行組件一：簡介 Flink 是一個框架和分佈式得計算引

2020-02-22 11:08:05

需要在pom 文件中引入 jieba的依賴 <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2

2020-02-22 11:08:05

如果發現添加的依賴無法下載jar可以從以下幾個方面進行檢查第一：reimport project 第二：pom.xml 添加以下配置 <profiles> <profile> <id>aliyun</id>

2020-02-22 11:08:05