原创 Spark定製班第28課:在集成開發環境中詳解Spark Streaming的運行日誌內幕

本期內容: 1. Spark Streaming日誌 2. Spark Streaming在IDE中的日誌分析  WordCountLine 15秒鐘的時間間隔 日誌中ForeachDStream先打印。 SocketInputDStr

原创 Spark定製班第24課:Spark Streaming的Transformation、Action、Input和Output源碼圖解

本期內容: 1. Spark Streaming的Transformation、Action源碼圖解 2. Spark Streaming的Input、Output源碼圖解 StreamingContext成員:socketStrea

原创 Spark定製班第21課:Spark Streaming中動態Batch Size深入及RateController解析

本期內容: 1. 動態Batch Size深入 2. RateController解析 1. 動態Batch Size深入 Dynamic Batch Size的方法實際在Spark Streaming中還沒實現。論文中的解決方案:F

原创 Spark定製班第20課:Spark Streaming中動態Batch Size實現初探

本期內容: 1. Batch Duration與Process Time 2. 動態Batch Size   不要低估Batch Duration與Process Time匹配的問題。兩者關係不是線性規律。不是數據量大,就簡單加大Bat

原创 35:Kafka源碼解讀中分區數、Consumer並行度等

本期內容: 1 Kafka中分區深度解析 2 Consumer並行度深度解析 Partition.scala: Kafka完成稿吞吐性,是由於: 1. 對順序讀寫採用OS的page級別的緩存,而不是使用內存。 2. Topic part

原创 Spark定製班第26課:Spark Streaming的JobGenerator源碼圖解

本期內容: 1. JobGenerator源碼 2. JobGenerator圖解 第6課曾經對JobGenarator生成Job的主要流程進行過一些剖析。這次在原有基礎上做一些補充。第6課給出了以下生成Job的相關類的主流程圖:

原创 Spark定製班第29課:深入理解Spark 2.x中的Structured Streaming內幕

本期內容: 1. 新型的Spark Streaming思維 2. Structured Streaming內幕 Spark 2.0 仍有bug,不適合於生成環境。只用於測試。 Spark 2.X提出了continuous applica

原创 Spark定製班第33課:Kafka內核再解密

本期內容: 1. Kafka:最快的消息系統 2. Kafka內核內幕 Kafka第一設計原則是消息的傳送速度。3臺普通的server可以達到百萬條消息/秒。Kafka的消息存儲能力是無限的。使用了的數據是保存在consumer上。分佈

原创 Spark定製班第27課:Spark Streaming的爲什麼在DStream的Action操作之外也可能產生Job操作

本期內容: 1. Spark Streaming產生Job的機制 2. Spark Streaming的其它產生Job的方式  1. Spark Streaming產生Job的機制 Scala程序中,函數可以作爲參數傳遞,因爲函數

原创 Spark定製班第18課:Spark Streaming中空RDD處理及流處理程序優雅的停止

本期內容: 1 Spark Streaming中的空RDD處理 2 Spark Streaming程序的停止 1 Spark Streaming中的空RDD處理      在Spark Streaming應用程序中,無論使用什麼 DS

原创 36:Kafka源碼解讀SocketServer下的Acceptor、Processor、Handler

本期內容: 1 SocketServer下的NIO 2 Acceptor、Processor、Handler解析 SocketServer:startup、n  本期內容: 1 SocketServer下的NIO 2 Acceptor

原创 Spark定製班第32課:Kafka原理內幕和集羣構建與測試實戰

本期內容: 1. Kafka原理內幕 2. Kafka集羣實戰 Spark Streaming是處理層面的,Kafka相當於流程控制和數據控制的層面。 Kafka就是消息中間件。分佈式的,可以擴展規模。可以對消息持久化。默認是7天,意思

原创 Spark定製班第30課:集羣運行模式下的Spark Streaming日誌和Web監控臺實戰演示徹底解密

本期內容: 1. 集羣模式下的Spark Streaming日誌 2. 集羣模式下的Spark Streaming Web監控臺 NetworkWordCount程序 batch duration設置300秒。job並行度爲1。4個wo

原创 Spark定製班第31課:集羣運行模式下的Spark Streaming調試和難點解決實戰經驗分享

本期內容: 1. 集羣模式下的Spark Streaming調試 2. 集羣模式下的Spark Streaming難點解決案例分享 怎麼找出前課想象的原因? 每個batch duration內的處理中,saveAsTextFiles只有

原创 Spark定製班第19課:Spark Streaming架構設計和運行機制大總結

本期內容: 1. Spark Streaming中的架構設計和運行機制 2. Spark Streaming的深度思考 1. Spark Streaming中的架構設計和運行機制 前面討論過,Spark Streaming就是RDD加