原创 Kylin SQL 快速參考 支持JOIN LEFT JOIN操作

Apache Kylin 使用 Apache Calcite 做 SQL 解析和優化。作爲一款 OLAP 引擎, Kylin 支持 SELECT 操作,而不支持其它操作例如 INSERT,UPDATE 和 DELETE,因此 Kylin

原创 Kylin cube構建過程優化

Kylin將Cube構建任務分解爲幾個依次執行的步驟,這些步驟包括Hive操作、MapReduce操作和其他類型的操作。如果你有很多Cube構建任務需要每天運行,那麼你肯定想要減少其中消耗的時間。下文按照Cube構建步驟順序提供了一些優化

原创 數倉建模:範式建模+維度建模

範式建模 Inmon提出的集線器的自上而下(EDW-DM)的數據倉庫架構。操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然後通過ODS的數據建設原子數據的數據倉庫EDW,EDW不是多維格式的,不方便上層應用做

原创 MAC IDEA修改git的用戶名和密碼

問題:GIT賬戶的密碼有更改,導致GIT拉取和提交代碼報錯 原因:MAC對git用戶和密碼有記憶功能,記住的是錯誤的   解決方案:用鑰匙串去更改用戶名和密碼 第一步:找到你的鑰匙串的位置 應用程序----實用工具-----雙擊鑰匙串--

原创 MySQL慢日誌簡介及Anemometer工具介紹

MySQL 慢日誌簡介: 原文地址:http://www.fordba.com/box-anemometer-visual-mysql-slow.html MySQL慢日誌想必大家或多或少都有聽說,主要是用來記錄MySQL中長時間執行(超

原创 HIVE時間操作UDF

日期函數UNIX時間戳轉日期函數: from_unixtime語法:   from_unixtime(bigint unixtime[, string format]) 返回值: string 說明: 轉化UNIX時間戳(從1970-01

原创 HDFS 滾動升級,降級,回滾

介紹 HDFS滾動升級可以升級單獨的HDFS守護進程. 例如, datanode們可以獨立於namenode來升級. 一個namenode也可以獨立於其他的namenode們來升級. namenode們也可以獨立於datanode們和jo

原创 HDFS高可用以及聯邦HDFS集羣搭建

閱讀目錄 HDFS高可用集羣搭建 安裝步驟: 聯邦HDFS集羣搭建 回到頂部 HDFS高可用集羣搭建 hadoop2.0已經發布了穩定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN

原创 Java 淺析 Thread.join()

概要 本文分爲三部分對 Thread.join() 進行分析: 1. join() 的示例和作用 2. join() 源碼分析 3. 對網上其他分析 join() 的文章提出疑問   1. join() 的示例和作用 1.1 示例 1

原创 BookKeeper 設計介紹及應用

BookKeeper由yahoo於2009年創建,並在2011年開源。 BookKeeper是一個可靠的日誌流記錄系統,用於將系統產生的日誌(也可以是其他數據)記錄在BookKeeper集羣上,由BookKeeper這個第三方Storag

原创 Apache Pulsar簡介

Apache Pulsar What is Pulsar "Pulsar is a distributed pub-sub messaging platform with a very flexible messaging model a

原创 Java併發之AQS詳解

一、概述   談到併發,不得不談ReentrantLock;而談到ReentrantLock,不得不談AbstractQueuedSynchronizer(AQS)!   類如其名,抽象的隊列式的同步器,AQS定義了一套多線程訪問共享資源

原创 Hadoop機架感知(rack-aware)配置

副本的存放策略又是HDFS實現高可靠性和搞性能的關鍵,優化的副本存放策略也正是HDFS區分於其他大部分分佈式文件系統的重要特性。HDFS採用一種稱爲機架感知(rack-aware)的策略來改進數據的可靠性、可用性和網絡帶寬的利用率。大型H

原创 神奇的HyperLogLog算法

基數計數基本概念 基數計數(cardinality counting)通常用來統計一個集合中不重複的元素個數,例如統計某個網站的UV,或者用戶搜索網站的關鍵詞數量。數據分析、網絡監控及數據庫優化等領域都會涉及到基數計數的需求。 要實現基數

原创 Hive分析窗口函數系列文章

分析窗口函數應用場景:(1)用於分區排序(2)動態Group By(3)Top N(4)累計計算(5)層次查詢Hive分析窗口函數(一) SUM,AVG,MIN,MAXHive中提供了越來越多的分析函數,用於完成負責的統計分析。抽時間將所