台部落moshang

前言：以下僅僅是個實例，希望通過實例能解決大家的問題，細節可能有點問題，大家需要根據自己的實際項目酌情參考並實現~ 一、創建父項目指定maven座標指向項目存儲位置修改packaging方式 <?xml versi

2020-07-01 03:16:32

一、工程目錄結構如圖所示其中，spark-study是父module，spark-commen、spark-core是子module 2、需求在spark-core中需要使用spark-commen中的類，我直接import

2020-07-01 03:16:22

1> Mainfest上下文界定在Scala中數組必須是有類型的，如果直接是泛型的話將會報錯，這時候引入了Manifest上下文界定，需要一個Mainfest[T]對象，而mainifest[T]有一個隱式值，如果調用mak

2020-07-01 03:16:22

分區partition 1、HashPartitioner 1.1代碼 import org.apache.kafka.clients.producer.Partitioner; import org.apache.kafka.c

2020-07-01 03:16:22

前言： Kafka的分佈式集羣的操作，需要藉助於ZooKeeper，所以第一步，需要保證zookeeper的正常使用。官網：http://kafka.apache.org 版本：kafka_2.11-1.1.1.tgz(2.11

2020-07-01 03:16:22

前言: Linux查看內核版本的命令先查看一下linux現有的內核版本 uname -r 1、更新nss sudo yum -y update nss 2、安裝public-key sudo rpm --import ht

2020-07-01 03:16:22

一、爲什麼需要調優一般情況在實際的生產環境中編寫代碼會有各種各樣的事情發生，比如說趕項目，所以留給程序猿的時間並不是很多，有時候還要面臨需求方催進度或給領導進行彙報等等原因，造成在開發初期的時候一味的只是追求代碼的功能實現，所以

2020-07-01 03:16:22

前言： hive是基於hadoop的，數據存儲在hdfs上並且對客戶端提供hql支持，將hql語句轉換爲mapreduce任務的數倉工具，hive就相當於hadoop的一個另一種形式的客戶端 hql，hive的底層是用java實現

2020-07-01 03:16:22

前言： sparkRDD的操作，從宏觀上分爲：Transformation和Action，但是具體的還以分爲：輸入算子、變換算子、緩存算子，以及行動算子。官網地址： https://spark.apache.org/docs/l

2020-02-21 08:26:15

概述：所謂共享變量，是爲了解決task中使用到外部變量造成相關問題而出現的。spark提供了有限的兩種共享變量：廣播變量Broadcast變量和累加器Accumulator。一、 Broadcast 1、使用說明使用非常簡單

2020-02-21 08:26:15

1、消息結構體構成 2、消息檢索的原理讀取數據的過程中，數據是屬於某一個topic的某一個partition對應的某一個segment文件中的某一條記錄。如何高效找到這條消息，決定着kafka的性能。 Kafka中數據文件

2020-02-21 08:26:14

前言：在日常開發過程中，難免遇到SparkStreaming和HDFS的整合的需求，這裏呢以WordCount爲例給大家來一個入門案例參考~ object HDFSStreaming { def main(args: A

2020-02-21 08:26:14

一、什麼是持久化操作持久化操作就是以某種方式將一些數據或結果存儲起來二、spark中爲什麼要有rdd的持久化的操作主要原因在於，如果我們相對一個RDD進行復用操作的時候，基於RDD的特性，當以rdd通過transforma

2020-02-21 08:26:14

前言：前方高能預警，因爲都是文字，可能會比較枯燥，主要是從cpu以及內存兩大方面來介紹的，希望大家能耐心一些看看，可能對大家會有所幫助哈~ 一、設置合理的cpu資源數很多情況下Streaming程序需要的內存不是很多，但是需要

2020-02-21 08:26:14

一、spark概念官網描述： Apache Spark是一個用於大規模數據處理的統一分析引擎。二、spark特點 1、高速性 Apache Spark使用最先進的DAG調度程序、查詢優化器和物理執行引擎，實現了批處理和流數

2020-02-21 08:26:14