原创 kafka命令總結與講解
1.查看kafka主題信息 kafka-topics.sh \ --describe --zookeeper localhost:2181 \ --topic flink_window 2.查看主題列表 kafka-topics.
原创 JVM各組件的功能
ClassLoader(類加載器) 什麼是類加載器? 加載和初始化.class文件 類加載器有幾種? 3種分別是:啓動類加載器(BootStrap) 擴展類
原创 Spark的統一內存管理
Spark的統一內存管理 圖1:統一內存管理 spark 1.6之後引入的統一內存管理機制。 統一內存管理的結構是: -----
原创 Flink消費0.10版本kafka
1.Flink 消費者精確到一次語義 a.setStartFromGroupOffsets()【默認消費策略】 默認讀取上次保存的offset信息 如果是應用第一次啓動,讀取不到上次的offset信息,
原创 Spark Task 級調度
Spark ----driver executor運行圖: 圖 1-1 driver-----executor 運行圖 -----TaskSetManager結構圖: 圖 1-2 TaskSetManager 結構 Spark T
原创 記錄Spark core /spark sql連接阿里雲的ES
/** * spark core連接阿里雲ES */ val conf = new SparkConf().setMaster("local[*]").setAppName("RecommendMovie") conf.set
原创 spark on yarn的 cluster模式 和 client模式 提交運行流程
spark on yarn的 cluster模式 和 client模式 提交運行流程 ---client 模式: 根據上面兩個流程圖得出: 每一個spark程序打成的jar包就是一個application,jar包提交到集羣之後啓
原创 IDEA-各模塊間引用出現問題的解決方法
原文鏈接:https://www.cnblogs.com/abc8023/p/10337562.html 1 點擊項目右上角的Project Structure 2 選擇Modules->父項目
原创 Flink消費kafka
1.Flink 消費者精確到一次語義 a.setStartFromGroupOffsets()【默認消費策略】 默認讀取上次保存的offset信息 如果是應用第一次啓動,讀取不到上次的offset信息,
原创 列專行並將一列數據作爲表名 即修改列名(面試題)
面試題: 成績錶轉成結果表: 將成績表列合併,同組放到一個map中,然後通過map將數據取出並將列名轉換。 SELECT id, sub['數學'] AS `數學`, sub['語文'
原创 Spark on yarn 的兩種模式不同之處(spark on yarn的內存分配)
Spark on yarn 的兩種模式不同之處: 1.進程名字不同 Cluster模式: CoarseGrainedExecutorBackend : 幹活的程序員 ApplicationMaster: 程序的主控進程 driver就
原创 spark sql操作複雜嵌套數組 json數據
spark sql 處理 對象嵌套數組json 元數據; {"username":"king","actionInfo":{"id":1,"age":"22","partList":[{"code":"123","uname":"kin
原创 spark-sql操作array和map和struct類型數據
原文鏈接(很nice的一篇文章):https://blog.csdn.net/wang_wbq/article/details/79678168 數組\列表array、字典map這兩種數據類型的索引 首先我們還是先構造數據結構與DataF
原创 HDFS合併小文件
關鍵字:hadoop hdfs 小文件、appendToFile、getmerge 衆所周知,HDFS中過多的小文件,會給NameNode造成很大的壓力,所謂的小文件,是指遠遠小於文件塊大小的文件。 在使用HDFS的過程中,應儘量避免生成
原创 Flink wordcount socket案例
java版: Scala 版: