原创 CDH 5.15.2 離線部署

此前看網上的CDH 安裝部署文檔,都是比較詳細的,不過覺得有一些細節點描述的不夠多,這樣對剛入門CDH的人來說,總是會碰到奇奇怪怪的問題,這裏我儘量把文檔做的細節點。僅供參考。 1.環境準備 1.1 前置要求 !!!CDH安裝前置

原创 SparkConf && SparkContext詳解

官方介紹 首先我從官網介紹中知道,我們在創建spark應用程序之前 需要先創建 SparkContext對象, SparkContext,會告知 spark 如何去訪問集羣,要創建SparkContext您首先需要構建一個包含有

原创 Hive常見數據格式及存儲(二)

上一篇文章中(Hive常見數據格式及存儲(一),主要使用Hive 來做出常見的數據格式對文件存儲的對比;沒看過的小夥伴,建議先看下; 本次,我們來具體聊聊 大數據下的存儲格式; 行式存儲 在RDBMS數據庫中我們存儲數據都是按照一

原创 Hive常見數據格式及存儲(一)

引言: 大數據應用中,我認爲最核心的兩個點就是 “存儲” 和 “計算”, 在現在的大數據計算中,各種計算引擎的出現,迭代優化 使得數據計算能夠快速的產生結果,但是數據存儲以及數據格式,始終屬於最爲基本的,合理的數據存儲以及數據格

原创 CDH

安裝配置jdk(三臺都要配置) mkdir /usr/java tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/java mv jdk1.8.0_181/ jdk1.8 chmod -R ro

原创 CDH安裝前置篇

現在隨着大數據的廣泛應用和框架的不斷升級,我相信做過大多數程序員都會遇到,版本衝突的問題,CDH 就是爲了解決各個不同的大數據框架之間的衝突問題,以及提供一套簡潔的安裝界面 1.選擇版本 cloudera官網地址,進入官網地址之後,可

原创 消除spark on yarn的兩處警告

1.導讀 從spark官網中我們可看到spark running-on-yarn 上的話只需要將master指定爲yarn即可, 但是在on yarn的時候,有可能會報出如下兩處警告 警告一: 18/12/25 00:34:51

原创 SparkRDD Operations(二) coalesce && repartition

1.概念理解 首先我們看下 官方對這兩個算子的介紹 coalesce(numPartitions) Decrease the number of partitions in the RDD to numPartitions. U

原创 spark-shell && spark-submit

在spark bin目錄下有 spark-shell和spark-submit 兩個腳本,通過 --help 看出來,基本參數都是一樣的,那麼這兩個腳本有什麼聯繫呢? 我們運行spark-shell 的時候,我們在web ui 界面中

原创 sqoop導入hive數據實戰

sqoop版本介紹 sqoop的版本到目前爲止,主要分爲sqoop1 和sqoop2 , sqoop1.4.4之前的所有版本稱爲sqoop1,之後的版本 sqoop1.991,sqoop1.99.2,sqoop1.99.3 稱爲sqo

原创 SparkRDD Operations(一)

1.RDD分類 RDD 算子中,有兩大分類 Transformations 和 Actions,對於RDD而言,它支持者兩種類型的操作; 1.1 Transformations: 從現有的數據庫中 經過裝換操作之後形成新的RDD,

原创 Spark核心概述術語

Application : 一個spark應用程序 由 1 個driver program + n 個 executors 組成 User program built on Spark. Consists of a driver p

原创 spark2.4 整合 hadoop2.6.0-cdh5.7.0 源碼編譯

1.前置要求 java 8 + maven 3.5.4 + scala 2.11 2.下載 spark2.4 源碼包 在spark官網 下載頁面中選擇對應的spark版本和源碼包 [hadoop@hadoop000 softwo

原创 Hadoop支持Lzo壓縮

1.前置要求 編譯安裝好hadoop java & maven 安裝配置好 安裝前置庫 yum -y install lzo-devel zlib-devel gcc autoconf automake libto

原创 大數據生態圈中壓縮的使用

1.前言 在時下大數據場景中,雖然現在的機器的性能好,節點多,但是不代表,我們的數據就不需要做任何的壓縮就開始處理,所以我們還是會對數據做壓縮處理的,本文會詳細的介紹大數據中常見的壓縮格式,以及常見壓縮的對比,和使用場景; 2.常用壓