原创 Flink03 transformation-B side outputs

一、前言 當您想要拆分數據流時,通常的做法是複製流,然後從每個流過濾出您不想擁有的數據,但是如果使用split 或者side output操作可以更好的解決這種問題。 split和select組合使用,對流按照條件進行拆分,取出。但是有一

原创 Hadoop(三)——YARN

一、YARN是什麼 YARN是Hadoop的核心組件之一 主要負責資源的管理(將系統資源分配給集羣中運行的各種運行程序)和作業的調度(調度在不同的節點上執行的任務) YARN的基本思想是將資源管理和作業調度分解爲單獨的daemon Yar

原创 Hadoop(二)——HDFS

一、 主從結構 1.1主節點:NamenNode  接收用戶操作請求 維護文件系統的目錄結構 管理文件與block之間關係,block與datanode之間關係 1.2 從節點:DataNode 存儲文件 文件被分成b

原创 Hadoop(一)——hadoop概述及HA搭建

一、Hadoop是什麼? Hadoop是分佈式系統基礎架構; 主要包括HDFS(分佈式文件系統)、YARN(資源調度系統)、MapReduce(分佈式計算框架)三部分構成。 二、Hadoop能幹什麼?   使用戶可以在不瞭解分佈式底層細節

原创 Hadoop(四)——MapReduce

1、輸入分片(Input Split): 在進行map計算之前,mapreduce會根據輸入文件計算輸入分片,每個輸入分片針對一個map任務,輸入分片存儲的並非數據本身,而是一個分片長度和一個記錄數據位置的數據。輸入分片往往和hdfs的b

原创 Flink入門_目錄結構

目錄結構: 一、DataStream Source  自定義Source Transformation Sink 自定義Sink 二、Flink部署模式 Standalone YARN 三、Window *****  Wind

原创 獲取外部傳遞參數值的兩種方式

目錄   一、前言 二、實現 2.1 通過參數方式直接傳遞 2.2 通過配置文件來獲取參數值 一、前言 在Spark或者Flink中,我們會對接Kafka,Kafka的參數比較多,如果我們希望通過靈活的方式修改參數,而不是把參數值硬編碼到

原创 CDH5.16.2安裝部署(一)準備工作

一、集羣規劃 離線部署:mysql cm( server agent 主從架構 ) parcel文件 規劃: hadoop001:mysql cm-server cm-agent nn snn dn rm nm zk hadoop002

原创 CDH5.16.2安裝部署(三) CDH部署

一、離線部署cm server及agent 1.1 拷貝cm包到其他節點 [root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hado

原创 CDH5.16.2安裝部署(二)MySQL5.7.11離線部署

一、MySQL離線安裝 1、解壓及創建目錄 [root@hadoop001 cdh5162]# tar -xf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz /usr/local/ [root@had

原创 如何監控Spark的作業信息?

前言 Spark的Web UI可以監控一些作業信息,但是Web UI是跟隨作業的生命週期,不方便隨時隨地的獲取作業的信息。 因此,介紹一下以下兩種監控方式:Spark自身監控和打造自己的監控 官方地址:http://spark.apach

原创 SparkCore之RDD算子Action

/** * 1、collect * 1)返回 Array(ele) * 2)實現方法:遍歷添加到數組 * 3)需要注意的是因爲該方法是把所有的數據放到內存,所以不適合大量數據==>否則OOM

原创 SparkCore之RDD算子transformation

目錄 1、map vs mapPartition 2、filter:過濾 3、zip:拉鍊 要求元素分數和分區數相同 4、差並交 5、distinct:去重  6、排序 7、reduceByKey vs groupByKey 8、join

原创 Spark RDD的窄依賴和寬依賴

目錄 前言 一、窄依賴 二、寬依賴 三、使用WC演示窄依賴、寬依賴 四、窄依賴中的join 五、總結 前言 RDD的五大特性之一就是RDD之間有依賴關係,描述了RDD如何從源頭計算過來的。 這樣可以做到容錯,如果某一個RDD分區出現錯誤,

原创 解決Spark on YARN時大量jar亂飛的情況

目錄 一、問題重現 二、解決方法 三、結果驗證 一、問題重現 使用Spark on YARN運行自帶的SparkPi作業 spark-submit \ --class org.apache.spark.examples.SparkPi