原创 Apache Flink 官方文檔--作業管理器(JM, JobManager)高可用(HA)

原文鏈接 JobManager高可用性(HA)   作業管理器JobManager協調每個Flink部署組件,它負責調度以及資源管理。  默認情況下,每個Flink集羣只有一個獨立的JobManager實例,因此可能會產生單點故障(SPOF

原创 Apache Flink JobManager HA部署

1. 下載源代碼: git clone https://github.com/apache/flink.git git branch -a 檢出blink分支 git checkout -b blink remotes/origin

原创 Spark On K8s源代碼解析

resource-managers\pom.xml org.apache.spark.deploy.SparkSubmit.scala org.apache.spark.deploy.k8s.submit.Client.scala

原创 Apache Flink 官方文檔--概念

數據流編程模型 原文鏈接博主理解篇 抽象層次   Flink提供不同級別的抽象來開發流/批處理應用程序。 這個最低級別的抽象提供了有狀態的流式操作。它是通過處理函數嵌入到DataStream API。它允許用戶自由的處理一個或者多個數據

原创 Spark 集羣部署(MasterHA)

一. 前提條件 Zookeeper集羣正常運行 二. 部署步驟 下載Spark程序壓縮包 wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-ha

原创 基於Docker Container運行Flink1.7.1 Local Cluster模式

1. 編輯相關腳本 1.1 接入點腳本 docker-entrypoint.sh #!/bin/bash set -e exec "$@" 1.2 啓動腳本 start.sh #!/usr/bin/env bash bin/start-

原创 Apache Flink 官方文檔--概覽

原文鏈接  本文檔適用於Apache Flink 1.7版。這些頁面的構建時間爲:12/25/18,UTC時間01:02:09  Apache Flink是一個用於分佈式流和批處理數據處理的開源平臺。Flink的核心是流數據流引擎,爲數據流

原创 OpentTsdb官方文檔中文版----存儲

&nmsp;OpenTSDB目前支持Apache HBase作爲其主要的存儲後端。截止版本2.3,OpenTSDB也可以使用Google雲上的Bigtable。選擇下面的HBase鏈接以存儲架構或Bigtable以查找用於雲中的配置和設置。

原创 Apache Spark 2.3 運行在Kubernete實戰

下載源代碼,並解壓下載地址 tar -zxvf v2.3.2.tar.gz 編譯 cd spark-2.3.2 build/mvn install -DskipTests build/mvn compile -Pkubernetes

原创 Apache Flink官方文檔中文版--Flink是什麼?

架構 原文鏈接  Apache Flink是一個用於對無邊界和有邊界數據流進行有狀態計算的框架和分佈式處理引擎。Flink設計爲運行在所有常見的集羣環境中,並且以內存速度和任何規模執行計算。   在這裏,我們解釋Flink架構的相關重要內容

原创 OpenTsdb官方文檔中文版----聚合器

  OpenTSDB旨在在查詢執行的過程中有效地組合多個不同的時間序列。原因在於:當用戶查看他們的數據,他們通常會從高層的角度開始提問,例如“數據中心的總吞吐量是多少”或“當前地區用電量是多少”。在查看到這些高層次的值之後,可能會出現一個或

原创 Apache Arrow官方文檔-元數據

元數據:邏輯類型,模式,數據頭 這是Arrow元數據規範的文檔,它使系統能夠通信 邏輯數組類型(使用Layout.md中指定的物理內存佈局實現) Arrow數據結構的表格集合的模式 “數據頭”指明內存緩衝區的物理位置,內存緩衝區不復制內存

原创 Apache Hawq功能測試腳本

一. TPC-H編譯 1.下載工具TPC-H 下載地址 2. 拷貝生成makefile,並修改makefile /opt/tpc-h-v2.17.0/dbgen cp makefile.suite makefile 修改makefile 3

原创 OpentTsdb官方文檔中文版----上卷和預聚合

  雖然TSDB被設計爲只要有空間就可以存儲原始全分辨率(resolution)的數據,但是對於廣泛的時間範圍或在許多標籤組合之上的查詢可能是相當痛苦的。這樣的查詢可能需要很長時間才能完成,或者在最糟糕的情況下,可能會導致內存不足的異常。從

原创 Apache Hawq--優化筆記

優化工作: 數據表分區儘量採用數值類型字段,如Date類型轉換爲距離1970-01-01的絕對天數。 SQL語法:儘量避免between and 的使用(查看查詢計劃,影響不大),多個子查詢時儘量使用CTE(with v as…)查詢。