原创 大數據學習之 SparkSql + Hive 篇
1. 關於SparkSql的相關用法請參考 https://blog.csdn.net/weixin_37835915/article/details/103531043 https://blog.csdn.net/weixin_378
原创 大數據學習之 sparkSql UDF(自定義函數)
注意:需要引入spark-hive的依賴 目錄 第一部分:自定義函數(常用的一些窗體函數) 第二部分:自定義聚合函數(弱類型) 第三部分:自定義聚合函數(強類型) package com.spark.self import o
原创 大數據學習之 使用SparkStreaming實時消費kafka數據
目錄 第一步:準備zookeeper環境 第二步:準備kafka環境 第三步:開發代碼 第四步:啓動SparkStreaming 程序 第五步:生產數據,如下所示: 總結: 第一步:準備zookeeper環境 (1)下載 zookee
原创 大數據學習之 Flume + kafka + SparkStreaming
1.搭建Kafka 環境: 可參考 https://blog.csdn.net/weixin_37835915/article/details/103786157 (1)啓動zookeeper (2)啓動kafka (3)創建topic
原创 大數據學習之 spark寫入數據到kafka中
目錄 1. kafka 環境的搭建請參考: 2. 準備KafkaSink 3.實現代碼: 4 總結: 1. kafka 環境的搭建請參考: https://blog.csdn.net/weixin_37835915/article/d
原创 大數據學習之 Hive Sql篇
1. 準備數據: score.csv數據如下: 01,01,80 01,02,90 01,03,99 02,01,70 02,02,60 02,03,80 03,01,80 03,02,80 03,03,80 04,01,50 04,0
原创 大數據學習之 Kafka 篇
一:簡介 一種分佈式的基於發佈/訂閱的消息系統 二:場景 常用組合:常用 flume (收集數據) --> kafka(把收集來的數據存儲到kafka) --> spark Streaming(使用spark Streaming
原创 大數據學習之 Flume篇
一. 簡介 Flume 是一個分佈式,可彈性的彈性系統,用於高效收集、匯聚和移動大規模日誌信息從不同的數據源到一個集中的數據存儲中心(HDFS,Hbase) 注意:數據由agent收集, 二.Flume event Flum
原创 大數據學習之 Spark篇
1.spark 是什麼? 基於內存的分佈式並行的計算框架(還有 mapReduce, storm(目前用的少)) spark 的吞吐量更大,但是有秒級別的延遲(storm 是毫秒級的延遲,Flink 也是毫秒級的延遲) executor
原创 大數據學習之Spark-SQL
************第一步:準備json文件,和txt文件內容如下******** *json 文件:* {"name":"Michael"}, {"name":"Andy", "age":30}, {"name":"Just
原创 大數據學習之 Flink
目錄 一:簡介 二:爲什麼選擇Flink 三:哪些行業需要 四:Flink的特點 五:與sparkStreaming的區別 六:初步開發 七:Flink配置說明 八:環境 九:運行組件 一:簡介 Flink 是一個框架和分佈式得計算引
原创 spark jieba 分詞 用cluster模式,提交到yarn上
需要在pom 文件中引入 jieba的依賴 <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2
原创 解決pom文件無法下載jar的方法
如果發現添加的依賴無法下載jar可以從以下幾個方面進行檢查 第一:reimport project 第二:pom.xml 添加以下配置 <profiles> <profile> <id>aliyun</id>