台部落kismetG

RDD詳解什麼是RDD 爲什麼要有RDD? 在許多迭代式算法(比如機器學習、圖算法等)和交互式數據挖掘中，不同計算階段之間會重用中間結果，即一個階段的輸出結果會作爲下一個階段的輸入。但是，之前的MapReduce框架採用

2020-04-21 08:57:24

RDD容錯機制Checkpoint ●持久化的侷限持久化/緩存可以把數據放在內存中，雖然是快速的，但是也是最不可靠的；也可以把數據放在磁盤上，也不是完全可靠的！例如磁盤會損壞等。 ●問題解決 Checkpoint的產生就是爲了更加可靠的

2020-04-21 08:57:24

DAG介紹 ●DAG是什麼 DAG(Directed Acyclic Graph有向無環圖)指的是數據轉換執行的過程，有方向，無閉環(其實就是RDD執行的流程) 原始的RDD通過一系列的轉換操作就形成了DAG有向無環圖，任務執行時，可以按

2020-04-21 08:57:24

自定義函數分類類似於hive當中的自定義函數， spark同樣可以使用自定義函數來實現新的功能。 spark中的自定義函數有如下3類 1.UDF(User-Defined-Function) 輸入一行，

2020-04-21 08:57:24

概述 ●官網 http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html Configuration of Hive is done by placing y

2020-04-21 08:57:24

RDD數據源普通文本文件 sc.textFile("./dir/*.txt") 如果傳遞目錄，則將目錄下的所有文件讀取作爲RDD。文件路徑支持通配符。但是這樣對於大量的小文件讀取效率並不高，應該使用wholeTextFiles

2020-04-21 08:57:24

spark on yarn Spark on yarn：Spark 使用了 yarn 管理器。Spark 運行在 YARN 上時，不需要啓動 Spark 集羣，只需要啓動 YARN 即可， YARN 的 ResourceManage

2020-04-21 08:57:24

Spark SQL初體驗入口-SparkSession ●在spark2.0版本之前 SQLContext是創建DataFrame和執行SQL的入口 HiveContext通過hive sql語句操作hive表數據，兼容

2020-04-21 08:57:24

創建DataFrame/DataSet Spark會根據文件信息嘗試着去推斷DataFrame/DataSet的Schema，當然我們也可以手動指定，手動指定的方式有以下幾種：第1種：指定列名添加Schema 第2種：通過StructT

2020-04-21 08:57:24

Spark Streaming介紹 ●官網 http://spark.apache.org/streaming/ ●概述 Spark Streaming是一個基於Spark Core之上的實時計算框架，可以從很多數據源消費數據並對數據

2020-04-21 08:57:24

Structured Streaming輸出詳解 1.output mode：以哪種方式將result table的數據寫入sink 2.format/output sink的一些細節：數據格式、位置等。 3.query name：指定

2020-04-21 08:57:24

WordCount 需求&準備 ●圖解 ●首先在linux服務器上安裝nc工具 nc是netcat的簡稱，原本是用來設置路由器,我們可以利用它向某個端口發送數據 yum install -y nc ●啓動一個服務端並開放9999端口,

2020-04-21 08:57:24

聲明變量 Java變量定義 int a = 0; 在scala中，可以使用val或者var來定義變量，語法格式如下: val/var 變量標識:變量類型 = 初始值其中 val定義的是不可重新賦值的變量 var定義的是可重新賦值的變量

2020-04-01 11:14:05

kafka主要組件說明 kafka當中的producer說明 producer主要是用於生產消息，是kafka當中的消息生產者，生產的消息通過topic進行歸類，保存到kafka的broker裏面。

2020-03-22 13:16:01

redis的持久化由於redis是一個內存數據庫，所有的數據都是保存在內存當中的，內存當中的數據極易丟失，所以redis的數據持久化就顯得尤爲重要，在redis當中，提供了兩種數據持久化的方式，分別爲RDB以及AOF，且redis默認開

2020-03-18 09:20:58