原创 CDH 5.15.2 離線部署
此前看網上的CDH 安裝部署文檔,都是比較詳細的,不過覺得有一些細節點描述的不夠多,這樣對剛入門CDH的人來說,總是會碰到奇奇怪怪的問題,這裏我儘量把文檔做的細節點。僅供參考。 1.環境準備 1.1 前置要求 !!!CDH安裝前置
原创 SparkConf && SparkContext詳解
官方介紹 首先我從官網介紹中知道,我們在創建spark應用程序之前 需要先創建 SparkContext對象, SparkContext,會告知 spark 如何去訪問集羣,要創建SparkContext您首先需要構建一個包含有
原创 Hive常見數據格式及存儲(二)
上一篇文章中(Hive常見數據格式及存儲(一),主要使用Hive 來做出常見的數據格式對文件存儲的對比;沒看過的小夥伴,建議先看下; 本次,我們來具體聊聊 大數據下的存儲格式; 行式存儲 在RDBMS數據庫中我們存儲數據都是按照一
原创 Hive常見數據格式及存儲(一)
引言: 大數據應用中,我認爲最核心的兩個點就是 “存儲” 和 “計算”, 在現在的大數據計算中,各種計算引擎的出現,迭代優化 使得數據計算能夠快速的產生結果,但是數據存儲以及數據格式,始終屬於最爲基本的,合理的數據存儲以及數據格
原创 CDH
安裝配置jdk(三臺都要配置) mkdir /usr/java tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/java mv jdk1.8.0_181/ jdk1.8 chmod -R ro
原创 CDH安裝前置篇
現在隨着大數據的廣泛應用和框架的不斷升級,我相信做過大多數程序員都會遇到,版本衝突的問題,CDH 就是爲了解決各個不同的大數據框架之間的衝突問題,以及提供一套簡潔的安裝界面 1.選擇版本 cloudera官網地址,進入官網地址之後,可
原创 消除spark on yarn的兩處警告
1.導讀 從spark官網中我們可看到spark running-on-yarn 上的話只需要將master指定爲yarn即可, 但是在on yarn的時候,有可能會報出如下兩處警告 警告一: 18/12/25 00:34:51
原创 SparkRDD Operations(二) coalesce && repartition
1.概念理解 首先我們看下 官方對這兩個算子的介紹 coalesce(numPartitions) Decrease the number of partitions in the RDD to numPartitions. U
原创 spark-shell && spark-submit
在spark bin目錄下有 spark-shell和spark-submit 兩個腳本,通過 --help 看出來,基本參數都是一樣的,那麼這兩個腳本有什麼聯繫呢? 我們運行spark-shell 的時候,我們在web ui 界面中
原创 sqoop導入hive數據實戰
sqoop版本介紹 sqoop的版本到目前爲止,主要分爲sqoop1 和sqoop2 , sqoop1.4.4之前的所有版本稱爲sqoop1,之後的版本 sqoop1.991,sqoop1.99.2,sqoop1.99.3 稱爲sqo
原创 SparkRDD Operations(一)
1.RDD分類 RDD 算子中,有兩大分類 Transformations 和 Actions,對於RDD而言,它支持者兩種類型的操作; 1.1 Transformations: 從現有的數據庫中 經過裝換操作之後形成新的RDD,
原创 Spark核心概述術語
Application : 一個spark應用程序 由 1 個driver program + n 個 executors 組成 User program built on Spark. Consists of a driver p
原创 spark2.4 整合 hadoop2.6.0-cdh5.7.0 源碼編譯
1.前置要求 java 8 + maven 3.5.4 + scala 2.11 2.下載 spark2.4 源碼包 在spark官網 下載頁面中選擇對應的spark版本和源碼包 [hadoop@hadoop000 softwo
原创 Hadoop支持Lzo壓縮
1.前置要求 編譯安裝好hadoop java & maven 安裝配置好 安裝前置庫 yum -y install lzo-devel zlib-devel gcc autoconf automake libto
原创 大數據生態圈中壓縮的使用
1.前言 在時下大數據場景中,雖然現在的機器的性能好,節點多,但是不代表,我們的數據就不需要做任何的壓縮就開始處理,所以我們還是會對數據做壓縮處理的,本文會詳細的介紹大數據中常見的壓縮格式,以及常見壓縮的對比,和使用場景; 2.常用壓