原创 如何創建聚合項目(基於idea創建Spark的聚合項目)

前言: 以下僅僅是個實例,希望通過實例能解決大家的問題,細節可能有點問題,大家需要根據自己的實際項目酌情參考並實現~ 一、創建父項目 指定maven座標 指向項目存儲位置 修改packaging方式 <?xml versi

原创 idea如何引入同級本地module中的類

一、工程目錄結構如圖所示 其中,spark-study是父module,spark-commen、spark-core是子module 2、需求 在spark-core中需要使用spark-commen中的類,我直接import

原创 scala中的Mainfest上下文界定和ClassTag(轉)

1> Mainfest上下文界定 在Scala中數組必須是有類型的,如果直接是泛型的話將會報錯,這時候引入了Manifest上下文界定,需要一個Mainfest[T]對象,而mainifest[T]有一個隱式值, 如果調用mak

原创 kafka三種分區策略及代碼示例

分區partition 1、HashPartitioner 1.1代碼 import org.apache.kafka.clients.producer.Partitioner; import org.apache.kafka.c

原创 kafka分佈式安裝

前言: Kafka的分佈式集羣的操作,需要藉助於ZooKeeper,所以第一步,需要保證zookeeper的正常使用。 官網:http://kafka.apache.org 版本:kafka_2.11-1.1.1.tgz(2.11

原创 Linux如何更新內核

前言: Linux查看內核版本的命令 先查看一下linux現有的內核版本 uname -r 1、更新nss sudo yum -y update nss 2、安裝public-key sudo rpm --import ht

原创 spark性能調優(一)之開發調優

一、爲什麼需要調優 一般情況在實際的生產環境中編寫代碼會有各種各樣的事情發生,比如說趕項目,所以留給程序猿的時間並不是很多,有時候還要面臨需求方催進度或給領導進行彙報等等原因,造成在開發初期的時候一味的只是追求代碼的功能實現,所以

原创 hive安裝及安裝過程中的問題

前言: hive是基於hadoop的,數據存儲在hdfs上並且對客戶端提供hql支持,將hql語句轉換爲mapreduce任務的數倉工具,hive就相當於hadoop的一個另一種形式的客戶端 hql,hive的底層是用java實現

原创 sparkCore之sparkRDD常用算子

前言: sparkRDD的操作,從宏觀上分爲:Transformation和Action,但是具體的還以分爲:輸入算子、變換算子、緩存算子,以及行動算子。 官網地址: https://spark.apache.org/docs/l

原创 sparkCore之共享變量

概述: 所謂共享變量,是爲了解決task中使用到外部變量造成相關問題而出現的。spark提供了有限的兩種共享變量:廣播變量Broadcast變量和累加器Accumulator。 一、 Broadcast 1、使用說明 使用非常簡單

原创 kafka消息檢索原理

1、消息結構體構成 2、消息檢索的原理 讀取數據的過程中,數據是屬於某一個topic的某一個partition對應的某一個segment文件中的某一條記錄。如何高效找到這條消息,決定着kafka的性能。 Kafka中數據文件

原创 SparkStreaming和HDFS的整合代碼實現

前言: 在日常開發過程中,難免遇到SparkStreaming和HDFS的整合的需求,這裏呢以WordCount爲例給大家來一個入門案例參考~ object HDFSStreaming { def main(args: A

原创 sparkCore之sparkRDD Persistence(sparkRDD持久化操作)

一、什麼是持久化操作 持久化操作就是以某種方式將一些數據或結果存儲起來 二、spark中爲什麼要有rdd的持久化的操作 ​主要原因在於,如果我們相對一個RDD進行復用操作的時候,基於RDD的特性,當以rdd通過transforma

原创 SparkStreaming性能調優

前言: 前方高能預警,因爲都是文字,可能會比較枯燥,主要是從cpu以及內存兩大方面來介紹的,希望大家能耐心一些看看,可能對大家會有所幫助哈~ 一、設置合理的cpu資源數 很多情況下Streaming程序需要的內存不是很多,但是需要

原创 spark簡介和一些核心概念

一、spark概念 官網描述: Apache Spark是一個用於大規模數據處理的統一分析引擎。 二、spark特點 1、高速性 Apache Spark使用最先進的DAG調度程序、查詢優化器和物理執行引擎,實現了批處理和流數