台部落番茄炒蛋213

一、前言當您想要拆分數據流時，通常的做法是複製流,然後從每個流過濾出您不想擁有的數據，但是如果使用split 或者side output操作可以更好的解決這種問題。 split和select組合使用，對流按照條件進行拆分，取出。但是有一

2020-07-07 00:06:15

一、YARN是什麼 YARN是Hadoop的核心組件之一主要負責資源的管理(將系統資源分配給集羣中運行的各種運行程序)和作業的調度(調度在不同的節點上執行的任務) YARN的基本思想是將資源管理和作業調度分解爲單獨的daemon Yar

2020-06-19 17:07:25

一、主從結構 1.1主節點：NamenNode 接收用戶操作請求維護文件系統的目錄結構管理文件與block之間關係，block與datanode之間關係 1.2 從節點：DataNode 存儲文件文件被分成b

2020-06-19 16:16:04

一、Hadoop是什麼？ Hadoop是分佈式系統基礎架構；主要包括HDFS(分佈式文件系統)、YARN(資源調度系統)、MapReduce(分佈式計算框架)三部分構成。二、Hadoop能幹什麼？使用戶可以在不瞭解分佈式底層細節

2020-06-19 16:16:04

1、輸入分片(Input Split)：在進行map計算之前，mapreduce會根據輸入文件計算輸入分片，每個輸入分片針對一個map任務，輸入分片存儲的並非數據本身，而是一個分片長度和一個記錄數據位置的數據。輸入分片往往和hdfs的b

2020-06-19 16:16:04

目錄結構: 一、DataStream Source 自定義Source Transformation Sink 自定義Sink 二、Flink部署模式 Standalone YARN 三、Window ***** Wind

2020-06-12 20:29:16

目錄一、前言二、實現 2.1 通過參數方式直接傳遞 2.2 通過配置文件來獲取參數值一、前言在Spark或者Flink中，我們會對接Kafka，Kafka的參數比較多，如果我們希望通過靈活的方式修改參數，而不是把參數值硬編碼到

2020-06-12 20:29:06

一、集羣規劃離線部署：mysql cm( server agent 主從架構 ) parcel文件規劃： hadoop001：mysql cm-server cm-agent nn snn dn rm nm zk hadoop002

2020-05-18 14:51:02

一、離線部署cm server及agent 1.1 拷貝cm包到其他節點 [root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hado

2020-05-18 14:51:02

一、MySQL離線安裝 1、解壓及創建目錄 [root@hadoop001 cdh5162]# tar -xf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz /usr/local/ [root@had

2020-05-18 14:51:02

前言 Spark的Web UI可以監控一些作業信息，但是Web UI是跟隨作業的生命週期，不方便隨時隨地的獲取作業的信息。因此，介紹一下以下兩種監控方式：Spark自身監控和打造自己的監控官方地址：http://spark.apach

2020-05-05 19:08:34

/** * 1、collect * 1）返回 Array(ele) * 2）實現方法：遍歷添加到數組 * 3）需要注意的是因爲該方法是把所有的數據放到內存，所以不適合大量數據==>否則OOM

2020-05-04 01:39:40

目錄 1、map vs mapPartition 2、filter：過濾 3、zip：拉鍊要求元素分數和分區數相同 4、差並交 5、distinct：去重 6、排序 7、reduceByKey vs groupByKey 8、join

2020-05-04 01:39:40

目錄前言一、窄依賴二、寬依賴三、使用WC演示窄依賴、寬依賴四、窄依賴中的join 五、總結前言 RDD的五大特性之一就是RDD之間有依賴關係，描述了RDD如何從源頭計算過來的。這樣可以做到容錯，如果某一個RDD分區出現錯誤，

2020-05-04 01:39:40

目錄一、問題重現二、解決方法三、結果驗證一、問題重現使用Spark on YARN運行自帶的SparkPi作業 spark-submit \ --class org.apache.spark.examples.SparkPi

2020-05-04 01:39:40