原创 spark -- RDD詳解 (什麼是RDD RDD主要屬性)

RDD詳解 什麼是RDD         爲什麼要有RDD? 在許多迭代式算法(比如機器學習、圖算法等)和交互式數據挖掘中,不同計算階段之間會重用中間結果,即一個階段的輸出結果會作爲下一個階段的輸入。但是,之前的MapReduce框架採用

原创 spark -- RDD容錯機制Checkpoint

RDD容錯機制Checkpoint ●持久化的侷限 持久化/緩存可以把數據放在內存中,雖然是快速的,但是也是最不可靠的;也可以把數據放在磁盤上,也不是完全可靠的!例如磁盤會損壞等。 ●問題解決 Checkpoint的產生就是爲了更加可靠的

原创 spark --DAG的生成和劃分Stage

DAG介紹 ●DAG是什麼 DAG(Directed Acyclic Graph有向無環圖)指的是數據轉換執行的過程,有方向,無閉環(其實就是RDD執行的流程) 原始的RDD通過一系列的轉換操作就形成了DAG有向無環圖,任務執行時,可以按

原创 Spark --Spark SQL自定義函數 UDF UDAF UDTF

   自定義函數分類 類似於hive當中的自定義函數, spark同樣可以使用自定義函數來實現新的功能。 spark中的自定義函數有如下3類 1.UDF(User-Defined-Function)               輸入一行,

原创 Spark -- Spark-On-Hive

概述 ●官網 http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html Configuration of Hive is done by placing y

原创 spark -- RDD數據源 (讀取小文件 數據寫入MySQL並讀取 spark-HadoopAPI SequenceFile 對象文件 數據寫入hbase並讀取 )

  RDD數據源  普通文本文件 sc.textFile("./dir/*.txt") 如果傳遞目錄,則將目錄下的所有文件讀取作爲RDD。文件路徑支持通配符。 但是這樣對於大量的小文件讀取效率並不高,應該使用wholeTextFiles

原创 spark -- on yarn模式 Spark參數詳解 IDEA編寫Spark程序

spark on yarn    Spark on yarn:Spark 使用了 yarn 管理器。Spark 運行在 YARN 上時,不需要啓動 Spark 集羣,只需要啓動 YARN 即可, YARN 的 ResourceManage

原创 Spark -- Spark SQL初體驗

Spark SQL初體驗   ​​​​​​入口-SparkSession ●在spark2.0版本之前 SQLContext是創建DataFrame和執行SQL的入口 HiveContext通過hive sql語句操作hive表數據,兼容

原创 spark --IDEA開發Spark SQL( sql查詢 RDD、DF、DS之間相互轉化 Spark SQL完成WordCount 多數據源交互)

創建DataFrame/DataSet Spark會根據文件信息嘗試着去推斷DataFrame/DataSet的Schema,當然我們也可以手動指定,手動指定的方式有以下幾種: 第1種:指定列名添加Schema 第2種:通過StructT

原创 Spark -- Spark Streaming 簡介,原理,DStream相關操作

  Spark Streaming介紹 ●官網 http://spark.apache.org/streaming/ ●概述 Spark Streaming是一個基於Spark Core之上的實時計算框架,可以從很多數據源消費數據並對數據

原创 spark -- Structured Streaming實戰代碼案例 Structured Streaming輸出詳解 讀取socket實時數據 讀取目錄下文本數據

Structured Streaming輸出詳解 1.output mode:以哪種方式將result table的數據寫入sink 2.format/output sink的一些細節:數據格式、位置等。 3.query name:指定

原创 Spark --Spark Streaming實戰 WordCount他來啦!!! updateStateByKey reduceByKeyAndWindow

WordCount  需求&準備 ●圖解 ●首先在linux服務器上安裝nc工具 nc是netcat的簡稱,原本是用來設置路由器,我們可以利用它向某個端口發送數據 yum install -y nc ●啓動一個服務端並開放9999端口,

原创 Scala --聲明變量,字符串,數據類型與操作,條件表達式,循環,break和continue

聲明變量 Java變量定義 int a = 0; 在scala中,可以使用val或者var來定義變量,語法格式如下: val/var 變量標識:變量類型 = 初始值 其中 val定義的是不可重新賦值的變量 var定義的是可重新賦值的變量

原创 kafka --主要組件

kafka主要組件說明             kafka當中的producer說明 producer主要是用於生產消息,是kafka當中的消息生產者,生產的消息通過topic進行歸類,保存到kafka的broker裏面。        

原创 Redis --持久化

redis的持久化 由於redis是一個內存數據庫,所有的數據都是保存在內存當中的,內存當中的數據極易丟失,所以redis的數據持久化就顯得尤爲重要,在redis當中,提供了兩種數據持久化的方式,分別爲RDB以及AOF,且redis默認開