原创 Apache NiFi 如何從入門到不放棄?

既然來了,就留下唄。筆者在之前的文章《物聯網遇到流計算》中介紹過 Apache NiFi,雖比不上 StreamSets 華麗的外表,但是功能卻很強大,在開源方面,NiFi 的企業級功能是接近完整的。在本篇文章中,筆者會帶大家進入 Wi

原创 2020 MIT 6.824 分佈式系統課程

MIT 6.824,筆者在幾年前刷完了一遍,過程還是相當折磨人的,但受益頗多。如今已是 2020 年了,這個特殊的一年,筆者想和大家一起拿起小板凳,準備好筆記本,再來完整地學習 MIT Spring 2020 課程。可能有讀者開始腦補了

原创 Spark SQL 自適應執行優化引擎

在本篇文章中,筆者將給大家帶來 Spark SQL 中關於自適應執行引擎(Spark Adaptive Execution)的內容。在之前的文章中,筆者介紹過 Flink SQL,目前 Flink 社區在積極地更新迭代 Flink SQ

原创 HBase - 生產環境上線前真的優化過嗎?

筆者今天給大家講一下 HBase 生產環境中的實踐,包括資源隔離、參數配置、性能優化等方面,部分內容參考《HBase原理與實踐》(非常建議大家好好讀一讀,一定會大有收穫),以及筆者的實戰經驗。HBase 業務資源隔離1. 讀寫分離場景R

原创 ClickHouse - 多卷存儲擴大存儲容量(生產環境必備)

筆者最近工作有點忙,加上培訓較多,近期文章更新慢了一拍。不過,今天爲 ClickHouse 的愛好者帶來一篇非常不錯的文章,部分內容來自 Altinity,以及筆者補充和整理而成。長期使用 ClickHouse 的用戶都知道,每個 Cl

原创 The Apache Way - 開源項目

臣本布衣,躬耕於南陽,苟全性命於亂世,不求聞達於諸侯。先帝不以臣 ...打住,打住!百家講壇,談古論今,今天我們不講三國,我們來講地球脈動 ... 啊,停停停,爬錯樓梯了,跑題啦,專業,專業!好了,離遠點,別扯淡了,今天筆者聊點不一樣的

原创 所見即所得式數據探索,讓數據價值更美麗

在大數據生態系統裏面,分析型數據庫產品衆多,那麼如何展示和洞察其中的數據價值呢?最直觀的當然是可視化方式,如果沒有可視化,再好的數據分析看起來也是蒼白無力的,不完美的。數據可視化也是 Business Intelligence (BI)

原创 Delta Lake - 增刪改事務操作之大結局

在《Delta Lake - 數據寫入的旅程》和《Delta Lake - 數據更新的旅程》文章中,我們已經從源碼層面掌握了 Delta Lake 數據寫入和數據更新的實現過程,並結合案例進行實戰,相信讀者應該有比較深入的理解。針對不再

原创 Apache Flink 培訓系列 - Transformation 引發的思考

無狀態的 Transformation官網沒有給出實戰的代碼,筆者爲了大家可以練習,將會提供完整代碼。map()在上面的實驗 1 中,我們通過 GeoUtils.isInNYC 過濾出位於紐約市的出租車事件流。同樣在 GeoUtils

原创 Flink 與 Hive 的磨合期

風雨送春歸,飛雪迎春到。已是懸崖百丈冰,猶有花枝俏。俏也不爭春,只把春來報。待到山花爛漫時,她在叢中笑。選自《卜算子·詠梅》圖片來自網絡,如侵權,請聯繫刪除有不少讀者反饋,參考上篇文章《Hive 終於等來了 Flink》部署 Flink

原创 涅槃重生:KRPC 實現 Impala 的飛躍

據不完全統計,在生產環境中部署 Impala 集羣時,大部分大數據工程師也會贈送一套 Kudu 環境,當然用不用另說。如果只部署了 Impala 而沒有 Kudu,那應該是一個意外。如果部署了 Kudu,而沒有 Impala,說明用戶都

原创 ClickHouse - 創建漂亮的 Grafana 儀表盤

今天筆者給大家帶來 Grafana 在 ClickHouse 項目中的應用。爲了內容的完整性,筆者會從 Grafana 講起,簡單普及一下,畢竟業界使用度已經非常高了。GrafanaGrafana 是一種非常流行的工具,可用於根據時間序

原创 PostgreSQL 複製方案(管夠)

流感無情,人間有情,總會有雨過天晴的時候。希望大家都能夠平平安安,一切順利。一些讀者在公衆號後臺留言,希望筆者能對 PostgreSQL 的主備進行比較全面的介紹。正好春節前,筆者計劃再寫一篇文章,那就開始吧。爲了規範相關術語,約束如下

原创 深入理解ClickHouse-本地表和分佈式表

在集羣的每個機器上面建立本地表 這裏需要謹記,在進行下面的操作前(使用ReplicatedMergeTree表引擎),必須保證集羣配置中internal_replication=true且配置了zookeeper。 1. 先任選一