原创 Hive(五):企業調優

文章目錄一、Fetch抓取二、本地模式三、表的優化3.1 小表、大表Join3.2 大表Join大表3.3 MapJoin(小表join大表)3.4 Group By3.5 Count(Distinct) 去重統計3.6 笛卡爾積

原创 Kafka(三):面試題

Kafka中的ISR、AR又代表什麼? ISR:與leader保持同步的follower集合;AR:分區的所有副本。 Kafka中的HW、LEO等分別代表什麼 LEO:每個副本的最後條消息的offset;HW:一個分區中所有副本

原创 Flume(一):概述和企業開發案例

文章目錄一、Flume概述1.1 Flume定義1.2 Flume的優點1.3 Flume組成架構1.4 Flume拓撲結構1.5 Flume Agent內部原理1.6 Flume安裝二、企業開發案例2.1 監控端口數據2.2 實

原创 Flume(二):監控、自定義組件、面試題

文章目錄一、Flume監控之Ganglia1.1 前言1.2 Ganglia的安裝與部署1.3 操作Flume測試監控二、自定義Source2.1 介紹2.2 編碼2.3 測試三、自定義Sink2.1 介紹2.2 編碼2.3 測試

原创 HBase(三):集成Hive、HBase優化

文章目錄一、與Hive的集成1.1 HBase與Hive的對比1.2 HBase與Hive集成環境準備1.3 案例一:HBase表關聯Hive表1.4 案例二:Hive表關聯HBase表二、HBase優化2.1 Master高可用

原创 Kafka(二):API

文章目錄一、Producer API1.1 消息發送流程1.2 異步發送API1.3 同步發送API二、Consumer API2.1 手動提交offset2.2 自動提交offset三、自定義Interceptor3.1 攔截器

原创 HBase(一):概述

文章目錄一、HBase簡介1.1 HBase定義1.2 HBase特點1.3 HBase數據模型1.4 HBase基本架構1.5 HBase完整架構1.6 HBase Meta表二、HBase安裝三、HBase進階原理3.1 寫流

原创 HBase(二):Shell操作、API、MapReduce

文章目錄一、HBase Shell操作二、HBase API操作三、MapReduce3.1 官方HBase-MapReduce3.2 自定義MapReduce將本地數據導入到HBase3.3 從HBase導入數據到HBase 一

原创 Kafka(一):概述

文章目錄一、Kafka概述1.1 MQ應用場景和優缺點1.2 消息隊列的兩種模式1.3 Kafka基礎架構二、Kafka快速入門2.1 安裝部署2.2 Kafka命令行操作三、Kafka架構深入3.1 Kafka工作流程3.2 K

原创 Hive(四):函數、存儲壓縮

文章目錄一、函數1.1 系統內置函數1.2 自定義函數二、壓縮和存儲2.1 開啓Map輸出階段壓縮2.2 開啓Reduce輸出階段壓縮2.3 Hive文件存儲格式2.4 主流文件存儲格式對比實驗2.5 存儲和壓縮結合 一、函數 1

原创 Hive(三):查詢

文章目錄一、基本查詢二、Join語句三、排序3.1 全局排序(Order By)3.2 多個列排序3.3 內部排序(Sort By)3.4 分區排序(Distribute By)3.5 Cluster By四、分桶及抽樣查詢4.1

原创 Hive(一):基礎

文章目錄一、Hive簡介1.1 Hive概述1.2 Hive的優缺點1.3 Hive架構原理1.4 Hive和數據庫比較二、Hive安裝2.1 Hive安裝部署2.2 遇到的問題2.3 配置Metastore到MySql2.4 H

原创 Haddop:HA高可用

文章目錄一、HA概述二、HDFS-HA工作機制2.1 HDFS-HA工作要點2.2 HDFS-HA自動故障轉移工作機制三、HDFS-HA集羣配置3.1 環境基礎3.2 集羣規劃3.3 配置HDFS-HA集羣3.4 啓動HDFS-H

原创 Hive(二):數據操作

文章目錄一、Hive數據定義1.1 基本數據類型1.2 集合數據類型1.3 複雜數據類型案例實操1.4 類型轉化二、DDL數據定義2.1 數據庫相關操作2.2表操作①創建表②管理表(內部表)和外部表③分區表④修改、刪除表三、DML

原创 Hadoop:數據壓縮、Yarn、企業優化

文章目錄一、Hadoop數據壓縮1.1 概述1.2 壓縮策略和原則1.3 MR支持的壓縮編碼1.4 壓縮方式選擇1.5 壓縮位置選擇1.6 壓縮參數配置1.7 壓縮實操案例二、Yarn資源調度2.1 Yarn的工作機制2.2 資源