原创 Scala——模式匹配;Option類(可選類)的使用;樣例類的定義與使用;隱式函數實現對象轉換

模式匹配 模式匹配的功能非常強大,使用恰當的話可以省略很多不必要的操作 /** * 模式匹配使用 */ object PatternDemo { def main(args: Array[String]): Unit

原创 Spark:自定義Schema信息將數據集合轉換爲Spark sql中的DataFrame

使用場景 在Spark中可以直接讀取數據文件 但是讀取到的數據的每一項數據是沒有數據類型的 而且不能使用數據像使用數據表中的字段名那樣使用數據 可以在讀取數據的時候對讀取到的數據進行設置轉換 設置轉換後使用數據可以像使用數據庫表中

原创 Scala——Scala的面向對象,如何建立類與構造函數,類的伴生對象,接口的定義與實現,異常處理

Scala中定義沒有構造函數的類 /** *創建一個類 * -1.屬性field,attribute:名詞 * -2.方法method/函數function:動詞 */ class People {

原创 HBASE表的設計;如何將數據遷入到/存儲到HBASE表中;HBase中的nameSpace;檢索數據的三種辦法;使用Sqoop將Mysql中的數據導入HBase中;創建預分區表

HBASE表的設計 最關鍵一點,最重要的一點 rowkey的設計 -1.不能重複 -2.前綴匹配原則 -3.熱點性 常用倒轉字段方法 如何將數據遷入到/存儲到HBASE表中 方式一:批量將數據存儲到HBASE表中 使用

原创 菜雞開發的日常踩坑記錄

開發踩坑記錄,不定時更新 日常踩坑記錄 注意 單詞拼寫!!! 20200207 mybatis plus 自帶insert插入異常 sql injection violation 解決方法: 使用逆向工程腳本時,生成的映射實體類在

原创 解決Spring Boot無法加載thymeleaf靜態資源

在spring boot中使用thymeleaf開發前端代碼時遇到的問題 集成thymeleaf後,所有的靜態資源,只能加載一個index頁面 其他頁面,js,css,都無法加載 顯示錯誤信息爲 Whitelabel Error

原创 SparkStreaming實現實時WordCount程序的兩種方法並將數據寫入Mysql中:使用工具netcat

首先需要了解的幾個類 StreamingContext 如何讀取數據 DStream 處理數據函數 DStream裏面存儲着很多RDD PairDStreamFunctions 當處理的數據類型是二元組的時候, DStrea

原创 kafka環境的安裝與簡單使用

kafka介紹 Kafka是由Apache軟件基金會開發的一個開源流處理平臺,由Scala和Java編寫。 Kafka是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其

原创 Spark Streaming中讀取數據的兩種方式:基於Receiver的方法,基於Direct方法

原文鏈接:http://spark.apache.org/docs/2.2.0/streaming-kafka-0-8-integration.html 基於Receiver的方法——基

原创 一些關於人工智能,機器學習,機器學習算法的零碎知識點

人工智能企業中的大佬們會幹點啥 算法 -函數 這個有點懸 讀論文&實現之 工程 這個我還能幹一丟丟 機器學習工程師(或調參工程師) 運行已有算法,訓練業務數據,獲得工作模型。 將數據 ->算法(函數) ->

原创 Spark Streaming使用window函數與reduceByKeyAndWindow實現一定時間段內讀取Kafka中的數據累加;reduceByKeyAndWindow函數的兩種使用方式

使用window函數實現時間段內數據累加 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spar

原创 Spark Streaming工作步驟詳解

producer生產者產生數據 Spark Streaming的Driver讓一個Executor運行一個Task接收器每隔一段時間主動向生產者拿數據 根據時間間隔:批處理時間間隔將DStream分割爲多分RDD數據集合

原创 模擬實時區域訂單金額統計:SparkStreaming從Kafka中讀取數據,設置檢查點,處理數據後,並將結果存到Redis中,並實現執行優化

實現思路 第一步獲取StreamingContext對象,因爲要使用檢查點恢復數據,所以不能使用new StreamingContext的方法獲取對象,要使用StreamingContext.getOrCreate建立對象 創建

原创 SparkStreaming簡單介紹;SparkStreaming處理數據流程;SparkStreaming運行工作原理與簡單優化

SparkStreaming簡單介紹 流式數據處理(stream processing) 要處理的數據就像流水一樣,源源不斷的產生數據,需要實時進行處理 對SparkCore的高級API的封裝,將流式的數據切分爲小的批次batch

原创 Spark Streaming中的檢查點 Checkpoint簡介;如何使用檢查點存儲/恢復處理結果

檢查點 Checkpoint功能 保存 每批中 state信息,累加加銷售營業額 保存 沒衝從Kafka topic 中讀取數據的offset 保存DStream的來源和DStream處理函數和輸出函數 什麼時候需要使用Che