台部落heibaiying

一、常見存儲引擎 1.1 InnoDB InnoDB 是 MySQL 5.5 之後默認的存儲引擎，它具有高可靠、高性能的特點，主要具備以下優勢： DML 操作完全遵循 ACID 模型，支持事務，支持崩潰恢復，能夠極大地保護用戶的數據安全；

2020-07-30 14:07:46

一、基本概念 1.1 OpenJDK 自 1996 年 JDK 1.0 發佈以來，Sun 公司在大版本上發行了 JDK 1.1、JDK 1.2、JDK 1.3、JDK 1.4、JDK 5，JDK 6 ，這些版本的 JDK 都可以統稱爲 Su

2020-07-29 14:07:14

一、簡介 1.1 多數據源支持 Spark 支持以下六個核心數據源，同時 Spark 社區還提供了多達上百種數據源的讀取方式，能夠滿足絕大部分使用場景。 CSV JSON Parquet ORC JDBC/ODBC connections

2019-09-24 13:18:45

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模塊，主要用於操作結構化數據。它具有以下特點：能夠將 SQL 查詢與 Spark 程序無縫混合，允許您使用 SQL 或 DataFrame API 對結構化數據進

2019-09-24 13:18:35

一、創建DataFrame和Dataset 1.1 創建DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 創建。創建後應用程序就可以從現有 RDD，Hiv

2019-09-24 13:18:35

一、作業提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下： ./bin/spark-submit \ --class <main-class> \ #

2019-09-22 13:17:26

一、簡介在 Spark 中，提供了兩種類型的共享變量：累加器 (accumulator) 與廣播變量 (broadcast variable)：累加器：用來對信息進行聚合，主要用於累計計數等場景；廣播變量：主要用於在節點間高效分發大

2019-09-22 13:17:16

一、集羣規劃這裏搭建一個 3 節點的 Spark 集羣，其中三臺主機上均部署 Worker 服務。同時爲了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 和 hadoop003 上分別部署

2019-09-22 13:17:16

一、安裝Spark 1.1 下載並解壓官方下載地址：http://spark.apache.org/downloads.html ，選擇 Spark 版本和對應的 Hadoop 版本後再下載：解壓安裝包： # tar -zxvf s

2019-09-19 13:18:21

一、簡介 Spark 於 2009 年誕生於加州大學伯克利分校 AMPLab，2013 年被捐贈給 Apache 軟件基金會，2014 年 2 月成爲 Apache 的頂級項目。相對於 MapReduce 的批處理計算，Spark 可以帶來

2019-09-19 13:18:21

彈性式數據集RDDs 一、RDD簡介 RDD 全稱爲 Resilient Distributed Datasets，是 Spark 最基本的數據抽象，它是隻讀的、分區記錄的集合，支持並行操作，可以由外部數據集或其他 RDD 轉換而來，它具有

2019-09-19 13:18:21

一、簡介想要使用 HDFS API，需要導入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址： <?xml version="1.0" encoding="UTF-8"?> <projec

2019-09-18 13:18:03

一、高可用簡介 Hadoop 高可用 (High Availability) 分爲 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對數據存儲及其一致性的要求比 YARN ResourceMange

2019-09-18 13:18:03

一、前置條件 Hadoop 的運行依賴 JDK，需要預先安裝，安裝步驟見： Linux 下 JDK 的安裝二、配置免密登錄 Hadoop 組件之間需要基於 SSH 進行通訊。 2.1 配置映射配置 ip 地址和主機名映射： vim

2019-09-17 13:18:14

一、集羣規劃這裏搭建一個 3 節點的 Hadoop 集羣，其中三臺主機均部署 DataNode 和 NodeManager 服務，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。二、前置

2019-09-17 13:18:14