kylin實操入門

原創

weixin_39198774

2018-11-28 13:14

先創建一個project

然後選擇創建的project

然後點擊data Source下的load Hive Table按鈕

填寫需要的hive表的全稱（庫名.表名），完成後點擊Sync按鈕就是數據導入

然後創建一個新的Model

Model Name只能是英文

選擇事實表(Fact Table)，可以通過 add lookup Table添加其他表進行關聯

可以是inner join 也可以是left join，然後進行join條件的添加

接下來選擇會用作維度和度量的列。這裏只是選擇一個範圍，不代

表這些列將來一定要用作Cube的維度或度量，你可以把所有可能會用到

的列都選進來，後續創建Cube的時候，將只能從這些列中進行選擇。

選擇維度列時，維度可以來自事實表或維度表，如圖所示。。

選擇度量列時，度量只能來自事實表，如圖2-7所示

最後一步，是爲模型補充分割時間列信息和過濾條件。如果此模型

中的事實表記錄是按時間增長的，那麼可以指定一個日期／時間列作爲

模型的分割時間列，從而可以讓Cube按此列做增量構建

過濾（Filter）條件是指，如果想把一些記錄忽略掉，那麼這裏可以設

置一個過濾條件。Kylin在向Hive請求源數據的時候，會帶上此過濾條件。

最後，單擊“Save”保存此數據模型，隨後它將出現在“Models”的列表中。

創建cube

單擊“New”，選擇“New Cube”，會開啓一個包含若干步驟的嚮導。

第一頁，選擇要使用的數據模型，併爲此Cube輸入一個唯一的名稱（必需的）和描述（可選的）（如圖2-9所示）；這裏還可以輸入一個郵件通知列表，用於在構建完成或出錯時收到通知。如果不想接收處於某些狀態的通知，那麼可以從“Notification Events”中將其去掉。

第二頁，選擇Cube的維度。可以通過以下兩個按鈕來添加維度。

·“Add Dimension”：逐個添加維度，可以是普通維度也可以是衍生（Derived）維度。

·“Auto Generator”：批量選擇並添加，讓Kylin自動完成其他信息。使用第一種方法的時候，需要爲每個維度起個名字，然後選擇表和列

如果是衍生維度的話，則必須是來自於某個維度表，一次可以選擇多個列；由於這些列值都可以從該維度表的主鍵值中衍生出來，所以實際上只有主鍵列會被Cube加入計算。而在Kylin的具體實現中，往往採用事實表上的外鍵替代主鍵進行計算和存儲。但是在邏輯上可以認爲衍生列來自於維度表的主鍵。

需要注意的是：維度的選擇都是在之前新建模型的時候設計好的，只能減少，不能增加

使用第二種方法的時候，Kylin會用一個樹狀結構呈現出所有的列，用戶只需要勾選所需要的列即可，Kylin會自動補齊其他信息，從而方便用戶的操作（如圖2-12所示）。請注意，在這裏Kylin會把維度表上的列都創建成衍生維度，這也許不是最合適的，在這種情況下，請使用第一種方法。

第三頁，創建度量。Kylin默認會創建一個Count（1）的度量。可以單擊“+Measure”按鈕來添加新的度量。Kylin支持的度量有：SUM、MIN、MAX、COUNT、COUNT DISTINCT、TOP_N、RAW等。請選擇需要的度量類型，然後再選擇適當的參數（通常爲列名）。

重複上面的步驟，創建所需要的度量。Kylin可以支持在一個Cube中添加多達上百個的度量；添加完所有度量之後，單擊“Next”

第四頁，是關於Cube數據刷新的設置。在這裏可以設置自動合併的閾值、數據保留的最短時間，以及第一個Segment的起點時間（如果Cube有分割時間列的話）

第五頁，高級設置。在此頁面上可以設置聚合組和Rowkey。

爲Cube配置參數。和其他Hadoop工具一樣，Kylin使用了很

多配置參數以提高靈活性，用戶可以根據具體的環境、場景等配置不同

的參數進行調優。Kylin全局的參數值可在conf/kylin.properties文件中進行

配置；如果Cube需要覆蓋全局設置的話，則需要在此頁面中指定。單

擊“+Property”按鈕，然後輸入參數名和參數值，如圖2-18所示，指

定“kylin.hbase.region.cut=1”，這樣此Cube在存儲的時候，Kylin將會爲每個

HTable Region分配1GB來創建一個HTable Region。

然後單擊Next跳轉到最後一個確認頁面，如有修改，則單擊“Prev”按

鈕返回以修改，最後再單擊“Save”按鈕進行保存，一個Cube就創建完成了。

創建好的Cube會顯示在“Cubes”列表中，如要對Cube的定義進行修

改，只需單擊“Edit”按鈕就可以進行修改。也可以展開此Cube行以查看更

多的信息，如JSON格式的元數據、訪問權限、通知列表等

構建cube

Cube的構建包含如下步驟，由任務引擎來調度執行。

1）創建臨時的Hive平表（從Hive讀取數據）。

2）計算各維度的不同值，並收集各Cuboid的統計數據。

3）創建並保存字典。

4）保存Cuboid統計信息。

5）創建HTable。

6）計算Cube（一輪或若干輪MapReduce）。

7）將Cube的計算結果轉成HFile。

8）加載HFile到HBase。

9）更新Cube元數據。

10）垃圾回收

進行構建操作

監控構建過程

歷史數據刷新(只針對增量構建的cube)，刷新完成之後才能進行新數據查詢，否則查到的就是舊數據

多個segment，儘量進行合併，優化查詢性能和存儲性能

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Deep Learning中的Batch Normalization理解

原文作者： author: 張俊林出處：http://blog.csdn.net/malefactor/article/details/51476961 Batch Normalization作爲最近一年來DL的重要成果，已經廣泛被證明其

2020-07-01 23:06:48

How to reduce bias and variance ?

bias和variance在深度學習中是兩個不同的概念，一個是偏差，一個是方差，這兩個中文名字反而更讓人混淆一點。偏差可以理解爲訓練出來的模型和真實數據分佈的差距。例如偏差小，說明模型和真實分佈相差不大；偏差很大，說明訓練出來的模型和

2020-07-01 23:06:48

MySQL簡單操作(內置Gif動圖)

什麼是MySQL MySQL結構分爲庫、表、字段簡單打個比方庫 == 文件夾表 == Excel文件字段 == 列名稱字段其實就是對某列數據的概括，比如上面的id、name、age、school、sex就是字

name is not defined

2020-06-25 21:49:28

“易語言.飛揚”新手教程，作者小博哥

小博哥提供的“易語言.飛揚”新手教程，請大家參考。小博哥：“詳細註釋,每一步都解釋!真正的新手學習資料,歡迎批評指正!” 請到論壇下載完整內容：http://bbs.dywt.com.cn/dispbbs.asp?boardID=148

2020-06-22 09:41:13

MindMapper中怎麼實現便箋的添加

MindMapper作爲一款用於管理和處理工作流程的智能工具軟件，它的強大的繪圖功能能夠幫助我們提高組織、審查、合作、分享和交流能力，它可以說是一款不可或缺的思維導圖軟件，而當我們在一個繪製的主題中需要添加比較多的解釋文

2020-06-20 15:40:05

如何在MindMapper中插入關聯性

MindMapper是一款專業的可視化概念圖實現、用於信息管理和處理工作流程的智能工具軟件，可以通過智能繪圖方法使用該軟件的節點和分支系統,那麼做爲剛接觸這款軟件的用戶來說需要學習的地方肯定還是有很多的，今天就來和大家討論

2020-06-20 15:40:05

PYNQ_Z2從vivado到SDK的PS到PL點燈以及固化流程

1. vivado的安裝不得不說賽靈思vivado安裝比較費時，有時候還裝不上。比較好的解決辦法是找一臺網卡比較好的電腦下載安裝包。我這裏安裝的是web design 2019.1。安裝直接去賽靈思官網下載就行。 2

不知名的小咸鱼

2020-06-17 09:43:15

【Unity3D入門教程】Unity3D播放音頻和視頻

前言在遊戲開發的過程中，我們經常會用到播放音頻和視頻，我們今天給大家帶來一種簡單的播放音頻和視頻的方法，使用的是Unity自帶的函數。本文的內容參考了宣雨松所寫的《Unity3D遊戲開發》一書，特此致謝。 1 播放音頻首先，Uni

2020-06-17 08:22:09

Pynq_Z2利用AXI_Lite從PS端讀取PL端的數據

1. 軟件平臺 vivado2019.1 2. 硬件平臺 PYNQ_Z2 3. 具體實現流程能需要做這一步，證明對vivado和IP核的自定義已經比較熟悉，如果沒有可以看這。自定義IP核流程操作蠻挺簡單的，但是我一開始也踏了好多坑。

不知名的小咸鱼

2020-06-17 02:43:06

《瘋狂Java講義》學習筆記（九）異常處理

1、異常概述異常機制已經成爲判斷一門編程語言是否成熟的標準，目前主流的編程語言都提供了成熟的異常機制，增加了異常處理機制後的程序有更好的容錯性，更加健壯 Java的異常機制主要依賴於：try、catch、finally、thr

2020-06-16 04:20:22

GitHub使用學習筆記

2020-06-02 19:41:57

免費視頻教程！零基礎學Python系列(7) - 數據類型之bytes（上）

2020-05-07 02:57:42

TensorFlow 中文資源精選，官方網站，安裝教程，入門教程，實戰項目，學習路徑。

2020-02-26 03:31:06

木蘭編程語言入門教程之三——函數和類型

2020-02-25 15:57:58

Altium Designer 詳細入門教程-原理圖繪畫-AD2016

不知名的小咸鱼

2020-02-25 13:25:04

24小時熱門文章

最新文章

最新評論文章