原创 詳解 MySQL 面試核心知識點

一、常見存儲引擎 1.1 InnoDB InnoDB 是 MySQL 5.5 之後默認的存儲引擎,它具有高可靠、高性能的特點,主要具備以下優勢: DML 操作完全遵循 ACID 模型,支持事務,支持崩潰恢復,能夠極大地保護用戶的數據安全;

原创 圖解 JVM 核心知識點(面試版)

一、基本概念 1.1 OpenJDK 自 1996 年 JDK 1.0 發佈以來,Sun 公司在大版本上發行了 JDK 1.1、JDK 1.2、JDK 1.3、JDK 1.4、JDK 5,JDK 6 ,這些版本的 JDK 都可以統稱爲 Su

原创 Spark 系列(十)—— Spark SQL 外部數據源

一、簡介 1.1 多數據源支持 Spark 支持以下六個核心數據源,同時 Spark 社區還提供了多達上百種數據源的讀取方式,能夠滿足絕大部分使用場景。 CSV JSON Parquet ORC JDBC/ODBC connections

原创 Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模塊,主要用於操作結構化數據。它具有以下特點: 能夠將 SQL 查詢與 Spark 程序無縫混合,允許您使用 SQL 或 DataFrame API 對結構化數據進

原创 Spark 系列(九)—— Spark SQL 之 Structured API

一、創建DataFrame和Dataset 1.1 創建DataFrame Spark 中所有功能的入口點是 SparkSession,可以使用 SparkSession.builder() 創建。創建後應用程序就可以從現有 RDD,Hiv

原创 Spark 系列(五)—— Spark 運行模式與作業提交

一、作業提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作業,其格式如下: ./bin/spark-submit \ --class <main-class> \ #

原创 Spark 系列(六)—— 累加器與廣播變量

一、簡介 在 Spark 中,提供了兩種類型的共享變量:累加器 (accumulator) 與廣播變量 (broadcast variable): 累加器:用來對信息進行聚合,主要用於累計計數等場景; 廣播變量:主要用於在節點間高效分發大

原创 Spark 系列(七)—— 基於 ZooKeeper 搭建 Spark 高可用集羣

一、集羣規劃 這裏搭建一個 3 節點的 Spark 集羣,其中三臺主機上均部署 Worker 服務。同時爲了保證高可用,除了在 hadoop001 上部署主 Master 服務外,還在 hadoop002 和 hadoop003 上分別部署

原创 Spark 系列(二)—— Spark 開發環境搭建

一、安裝Spark 1.1 下載並解壓 官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應的 Hadoop 版本後再下載: 解壓安裝包: # tar -zxvf s

原创 Spark 系列(一)—— Spark 簡介

一、簡介 Spark 於 2009 年誕生於加州大學伯克利分校 AMPLab,2013 年被捐贈給 Apache 軟件基金會,2014 年 2 月成爲 Apache 的頂級項目。相對於 MapReduce 的批處理計算,Spark 可以帶來

原创 Spark 系列(三)—— 彈性式數據集 RDDs

彈性式數據集RDDs 一、RDD簡介 RDD 全稱爲 Resilient Distributed Datasets,是 Spark 最基本的數據抽象,它是隻讀的、分區記錄的集合,支持並行操作,可以由外部數據集或其他 RDD 轉換而來,它具有

原创 Hadoop 系列(七)—— HDFS Java API

一、 簡介 想要使用 HDFS API,需要導入依賴 hadoop-client。如果是 CDH 版本的 Hadoop,還需要額外指明其倉庫地址: <?xml version="1.0" encoding="UTF-8"?> <projec

原创 Hadoop 系列(八)—— 基於 ZooKeeper 搭建 Hadoop 高可用集羣

一、高可用簡介 Hadoop 高可用 (High Availability) 分爲 HDFS 高可用和 YARN 高可用,兩者的實現基本類似,但 HDFS NameNode 對數據存儲及其一致性的要求比 YARN ResourceMange

原创 Hadoop 系列(四)—— Hadoop 開發環境搭建

一、前置條件 Hadoop 的運行依賴 JDK,需要預先安裝,安裝步驟見: Linux 下 JDK 的安裝 二、配置免密登錄 Hadoop 組件之間需要基於 SSH 進行通訊。 2.1 配置映射 配置 ip 地址和主機名映射: vim

原创 Hadoop 系列(五)—— Hadoop 集羣環境搭建

一、集羣規劃 這裏搭建一個 3 節點的 Hadoop 集羣,其中三臺主機均部署 DataNode 和 NodeManager 服務,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。 二、前置