原创 ClickHouse之DBA運維寶典

ClickHouse 中有沒有一些能夠 “安家立命” 的運維 SQL 語句。我想對於這個問題很多朋友都會有興趣,所以就在這裏做一個簡單的分享。 在 ClickHouse 默認的 system 數據庫下(databse),擁有衆多的系統表。

原创 mysql調優實踐(二)

Mysql優化實踐 1. LIMIT 語句 分頁查詢是最常用的場景之一,但也通常也是最容易出問題的地方。比如對於下面簡單的語句,一般DBA想到的辦法是在type, name, create_time字段上加組合索引。這樣條件排序都能有效的

原创 yarn capacity scheduler調度器實踐

文章目錄簡述配置測試異常結尾 簡述 能力調度器在生產實踐中是用的較多的一種模式,今天單機來實踐一下。hadoop版本我這裏選用了3.1.2,spark是用的2.4.3 配置 yarn-site.xml 這裏主要配置yarn.re

原创 Kubernetes實踐——集羣根據label構建多環境應用

文章目錄需求環境實踐配置節點標籤配置deployment配置service驗證結尾 需求 最新學習Kubernetes採坑不少,這裏先用一個實際架構來分享下k8s的使用吧。我們通過k8s來編排一個多種環境的集羣。要求集羣提供不同環

原创 美團 MySQL 數據實時同步到 Hive 的架構與實踐

文章轉載自公衆號  美團技術團隊 , 作者 萌萌 背景 在數據倉庫建模中,未經任何加工處理的原始業務層數據,我們稱之爲ODS(Operational Data Store)數據。在互聯網企業中,常見的ODS數據有業務日誌數據(Log)和業

原创 Spark streaming手動保存offset到zk java實現

文章目錄前言pom依賴版本Demo 前言 網上有部分案例是關於手動設置kafka中offset的,不過大多采用的是0.8的kafka版本,採用scala的編寫,kafka-0.10版本的鮮有提及,或者都不完整。0.10版本是可以兼

原创 clickhouse(三、查詢同步遠程集羣)

需求 在使用ck時,我們難免會遇到跨集羣的數據傳輸,比如數據備份,不同環境同步數據等。之前試過查詢出來再寫入,數據量少的情況還能接受,超過10w這樣效率就顯得很低了,而大數據環境下10w當然是不能接受的。所以ck也提供了一種比

原创 最新elasticsearch7(七、集羣多主高可用配置)

文章目錄前言配置集羣間證書認證elasticsearch.yml密碼設置驗證客戶端集羣配置restHighLevelClientjdbc參考 前言 前面介紹了es7相關的一些用法。這一節我們來實踐下集羣高可用搭建,以及賬號權限的配

原创 clickhouse(一、 高階函數應用實現hive分區設置行號row_number() )

文章目錄前言準備邏輯代碼結尾 前言 最近公司選用clickhouse體系作爲數據解決方案,ck由於底層存儲區別hadoop函數,導致hql一些很好用的特性無法按照之前的寫法來實現,比如按分區設行號,first_value(),la

原创 數據倉庫(二、美團設計實踐)

OneData建設探索之路:SaaS收銀運營數倉建設 背景 隨着美團業務的發展,頻繁迭代和跨部門的垂直業務單元變得越來越多。但由於缺乏前期規劃,導致後期數倉出現了嚴重的數據質量問題,這給數據治理工作帶來了很大的挑戰。在數據倉庫建設過程中,

原创 clickhouse(二、高階函數應用retention計算留存數)

文章目錄前言準備查詢結論 前言 clickhouse提供retention(cond1, cond2, …)函數方便計算用戶留存率,當然也可以應用在其他需求上。 準備 建表 CREATE TABLE login_log --

原创 整合griffin遇到的坑——Spark無法寫入ES

前言 最近準備對數據質量進行監控,選定的工具是開源的Apache Griffin,由於文檔稀缺,加上griffin本身使用的組件衆多,期間採坑不少,我們將打好的包measure-0.6.0-SNAPSHOT.jar放到集羣中,通過

原创 clickhouse(六、集羣擴容)

文章目錄背景方案複製配置權重測試結尾 背景 之前公司面臨磁盤不足的問題,雖然通過增加磁盤來緩解了。但是clickhouse集羣節點擴充是發展遲早要面臨的問題,所以嘗試思考解決方案。 ck不同於hadoop體系,hdfs當集羣增減節

原创 clickhouse(四、運維查看數據庫及表容量)

mysql數據庫有information_schema.tables系統表記錄表相關元數據,clickhouse對應的有system.parts表。下面是查看clickhouse數據庫和表大小、行數及壓縮率等方法。 -- 查看數據

原创 clickhouse(五、運維查看後臺進程並殺死)

查看後臺進程 -- 這個命令和mysql是一樣的 show processlist; -- 如果進程太多,也可用通過查詢系統表 processes, select * from system.processes; -- 指定主