原创 【Hive】hive函數

文章目錄hive函數hive內置函數1. 查看內置函數2. 測試內置函數快捷方式3. 內置函數列表3.1 關係運算:3.2 數學運算:3.3 邏輯運算:3.4 複合類型構造函數3.5 複合類型操作符3.6 數值計算函數3.7 集合

原创 【MapReduce】Mapreduce基礎知識整理 (三) shuffle機制、MapJoin、ReduceJoin、倒排序索引

目錄1. Mapreduce的Shuffle機制1.1概述1.2 shuffle分析1.2.1 主要工作流程1.2.2 環形緩衝區1.2.3 詳細工作流程2. Map Join 和 Reduce Join2.1 表關聯2.2 Re

原创 【MapReduce】Mapreduce基礎知識整理 (五) 多Job串聯、共同好友案例

文章目錄前言多job串聯案例求共同好友 前言 一個任務中包含多個mapreduce任務(job),多個job之間有相互的依賴關係的 需要進行多job串聯 操作步驟: //將我們的普通的job轉成Controlledjob //

原创 【Zookeeper】zookeeper 原理和應用

文章目錄1. zookeeper原理解釋1.1 集羣角色描述1.2 Paxos 算法概述(ZAB協議)1.2.1 zookeeper 的全新集羣選主1.2.2 zookeepr 的非全新集羣選主1.3 數據同步1.4 zookee

原创 【Ambari】設置yarn隊列資源爲絕對值[memory=10240,vcores=12,yarn.io/gpu=4]

目錄1.介紹2 修改資源隊列 API步驟2.1 獲取capacity-scheduler配置的tag和version2.2 獲取capacity-scheduler指定版本的配置2.3 通過Cluster Metrics API

原创 【Hive】hive特殊分隔符處理

文章目錄HIVE 特殊分隔符處理1. 使用 RegexSerDe 通過正則表達式來抽取字段2. 通過自定義 InputFormat 解決特殊分隔符問題 HIVE 特殊分隔符處理 補充:hive 讀取數據的機制: 首先用 Inp

原创 【MapReduce】Mapreduce基礎知識整理 (四) 自定義輸入

目錄1. 爲什麼需要自定義輸入2. 默認輸入源碼分析2.1 org.apache.hadoop.mapreduce.Mapper2.2 org.apache.hadoop.mapred.MapTask2.3 org.apache.

原创 【Hive】hive窗口函數/分析函數 over子句

文章目錄over子句介紹1. 什麼是over子句2. over子句的開窗範圍3. window clause4. over子句默認值4.1 order by4.2 partition by4.3 partition by + or

原创 【MapReduce】Mapreduce基礎知識整理 (一) 基礎介紹、task、並行度機制、切片機制、

目錄1. Mapreduce 入門1.1 什麼是 MapReduce1.2 爲什麼需要 MapReduce1.3 mapreduce編寫規範2. MapReduce 程序的核心運行機制2.1 概述2.2 MapReduce 程序的

原创 [Hadoop] hadoop 2.7完全分佈式高可用部署

文章目錄1. hadoop ha 原理描述2. 集羣規劃3. 集羣服務器準備1. 配置IP和主機名稱映射2. 關閉防火牆3. 關閉selinux4. 同步時間5. 配置sudo權限6. 安裝jdk環境7. 切換用戶配置ssh免密登

原创 【工具使用】Gradle build報錯 io.spring.gradle.dependencymanagement.DependencyManagementPlugin

$ gradle build FAILURE: Build failed with an exception. * Where: Build file '/Users/honey/workSpace/XX_ProTest/bu

原创 【Hive】hive 視圖特點及使用

文章目錄hive 視圖特點創建視圖查看視圖刪除視圖使用視圖 hive 視圖特點 和關係型數據庫一樣,Hive 也提供了視圖的功能,不過請注意,Hive 的視圖和關係型數據 庫的數據還是有很大的區別: 只有邏輯視圖,沒有物化視圖;

原创 【Hive】hive元數據庫中的幾張核心表

hive元數據庫中的幾張核心表 在hive-site.xml配置了mysql連接信息,元數據庫爲hivedb <property> <name>javax.jdo.option.ConnectionURL</name>

原创 【Zookeepr】分佈式一致性相關理論

文章目錄分佈式一致性理論計算機的發展分佈式一致性的問題分佈式一致性級別事務CAP 理論BASE理論Quorum NRW分佈式事務Paxos算法 分佈式一致性理論 計算機的發展 從集中式到分佈式:最大的特點就是部署簡單。 集中式:

原创 【Zookeeper】zookeeper 3.4.10 安裝

文章目錄1. 解壓2. 配置環境變量3. 修改zookeeper配置文件4. 拷貝已修改好配置文件的安裝包到其它節點5. 啓動zookeeper6. 啓動集羣時的選主過程 1. 解壓 [hdp01@hdp01 apps]$ tar