原创 Spark 的 Accumulator與 AccumulatorV2

Spark 的 Accumulator 與 AccumulatorV2 1.概述 Accumulator累加器能精確地統計數據的各種屬性,eg:可以統計符合條件的session,在一段時間段內產生了多少次購買,統計出各種屬性的數

原创 hive 自定義函數UDF

hive 自定義函數UDF 1. 內置函數 查看內置函數: show functions; 顯示內置函數的詳細信息: desc funcation sum; 顯示函數的擴展信息: desc funcation extended su

原创 Linux常用命令

Linux常用命令 1. ls命令 就是list的縮寫,通過ls命令不僅可以查看linux文件夾包含的文件,而且可以查看文件權限 ls -a 列出所有文件,包含以“ . ”開始的隱藏文件 ls -r 反序排列 ls -S 以文件大小

原创 安裝github項目的jar包到自己的maven倉庫中

安裝github項目的jar包到自己的maven倉庫中 1. 概述 在實際開發中,我們可能使用到github已有的開源項目,在使用maven的時候,在maven倉庫中找不到這個github項目的maven,這個時候我們需要將GitHu

原创 Azkaban概述詳解

Azkaban概述詳解 本文簡單介紹一下Azkaban及其特點。azkaban是一個開源的任務調度系統,用於負責任務的調度運行(如數據倉庫調度),用以替代linux中的crontab。 一、Azkaban是什麼? 1.1 Azkaba

原创 java 1.8 HashMap的實現原理

java 1.8 HashMap的實現原理 1. hash 表 數組:採用一段連續的存儲單元來存儲數據。對於指定下標的查找,時間複雜度爲O(1);通過給定值進行查找,需要遍歷數組,逐一比對給定關鍵字和數組元素,時間複雜度爲O(n)

原创 無法導入 import spark.implicits._ 報錯

import spark.implicits._ 中的spark 指的是SQLContext或者SparkSession eg1: def main(args: Array[String]): Unit = {

原创 快速排序

快速排序 1. 快速排序思想 int [] arr = {8,2,9,10,1,5,14,9}; left = 0 right = arr.length -1 首先在這個序列中隨便找一個數作爲基準數,爲了方便,就讓第一個數8作爲基準數

原创 選擇排序

選擇排序 1. 選擇排序的思想 每一趟從待排序的記錄中選出最小的元素,順序放在已排好序的序列最後,直到全部記錄排序完畢。就如鬥地主發牌後,將最大的牌或者最小的牌放到左邊或者右邊。 2. 編碼 package com.zhmcode.

原创 二分查找

二分查找 1. 二分查找的條件 必須是有序數組 2. 二分查找的思想 我們先將被查找的數和數組的中間鍵對應的value比較,因爲數組是有序的,所有若被查找的數小於數組的中間鍵對應的value則這個數則在數組的左部分,然後將中間鍵的左邊

原创 冒泡排序

冒泡排序 1.冒泡排序思想 讓數組當中相鄰的兩個數進行比較,數組當中比較小的數值向下沉,數值比較大的向上浮!外層for循環控制循環次數,內層for循環控制相鄰的兩個元素進行比較。 2. 編碼 package com.zhmcode.b

原创 Spark自定義AccumulatorV2

Spark自定義AccumulatorV2 1.概述### AccumulatorV2的簡單使用與注意事項見上一遍博客https://blog.csdn.net/wtzhm/article/details/86481846 在實際開

原创 Spark 的Accumulator

Spark 的 Accumulator 1.概述 Accumulator累加器能精確地統計數據的各種屬性,eg:可以統計符合條件的session,在一段時間段內產生了多少次購買,統計出各種屬性的數據。 def accumulator[

原创 迴歸spark30多個算子

迴歸spark30多個算子 1. spark算子分類 Transformation 變換/轉換算子 Transformation 操作是延遲計算的,也就是說從一個RDD 轉換生成另一個 RDD 的轉換操作不是馬上執行,需要等到有

原创 Spark 高性能算子

Spark 高性能算子 1. map 與 mapPartitions 1.優缺點 mapPartition的優點: 普通的map執行一個partition中有1.2萬條數據。ok,那麼function要執行和計算1.2萬次。 如果使用