原创 Centos 6.7最小版安裝AzKaban

首先,是要安裝git的已安裝直接掉過本節(對於要編譯安裝的同學): 1、下載git源碼包 wget https://github.com/git/git/archive/v2.3.0.zip 之後,解壓,進入解壓目錄。 在進行下

原创 關於HBase擴容的一些思考

參考--HBase在滴滴的應用場景和最佳實踐 一是說新增的RS節點的配置最好要和前面的一致 在此以後,進行Region的遷移,HBase與Balance的命令,在這裏不建議使用自動的balance,因爲balance主要的問題是不會根據表

原创 HashMap--concurrentHashMap的一些知識蒐集

目錄 HashMap ConCurrentHashMap 面試中經常會被問道: 面試官:有了解HashMap嗎,講一下HashMap吧~ 我:呃呃呃~是這樣的,balabalbala~  蒐集了網上的一些資料,估計也不全,大致也能

原创 Centos6.7安裝ES6.1.3

title categories tags date Centos6.7安裝ES6.1.3 fortest 數據開發 2019/08/18 19:21:21 the life i want,there is n

原创 Pulsar初入門(一)

目錄 簡介: 架構:  一、Messaging Concepts(消息概念) Producer 模式: 壓縮: Batching Consumer 模式: client: ack  死信主題: topics: namespace 訂閱模式

原创 Spark算法初入門-邏輯迴歸篇3

目錄 邏輯迴歸: 二項邏輯迴歸: 多項邏輯迴歸: 原文參考Apache Spark官方網站http://spark.apache.org/docs/2.2.0/ml-classification-regression.html#logis

原创 Druid初入門-應用/加載數據

目錄 概述: Druid有什麼作用: Druid如何工作: Druid常見應用領域: 什麼時候我該使用Druid: 構建: Druid的進程和服務器 使用: 加載數據: 使用數據加載器加載數據 使用規範加載數據(通過控制檯) 使用規範加載

原创 Spark算法初入門-KMeans篇

目錄   聚類: K-Means: 依賴分析 補充知識:關於本地向量(Local Vector) 高斯混合-Gaussian mixture 聚類: 聚類是一種無監督的學習。聚類常用於探索性分析或作爲分層監督學習管道的組成部分。我們在畫像

原创 Kudu初入門

目錄 介紹: 基礎架構: 關於Tablet: Kudu與Impala集成 安裝Kudu 配置Impala支持Kudu: 使用案例: 創建表: 查詢Impala中現有的Kudu表 使用CREATE TABLE AS SELECT語句查詢Im

原创 Impala初入門

目錄   什麼是Impala: Impala的優點:  Impala的功能: 參考Impala-中文文檔-http://www.dba.cn/book/impala/IMPALAJiaoCheng/IMPALAGaiShu.html 什麼

原创 ClickHouse初入門

目錄 什麼是ClickHouse: OLAP場景得關鍵屬性:  ClickHouse的獨特功能:  1.真正面向列的DBMS, 2.數據壓縮 3,數據磁盤存儲 4,多個核心的並行處理 5,多個服務器上多的分佈式處理 6,SQL支持 7,矢

原创 DataX初入門

目錄 關係型數據庫拉取到Hive: mongo到hive Sqoop存在侷限性,只能在關係型數據庫到hadoop(Hive)之間導數據,如果有noSql的場景怎麼解決? 我們用阿里開源的產品DataX來解決。目前開源版本爲dataX3。

原创 Flink初入門-容錯處理

目錄   檢查點: 啓用和配置檢查點: 相關的配置選項: 選擇狀態後臺: 迭代作業中的狀態檢查點: 重啓策略: 檢查點: 檢查點通過允許恢復狀態和相應的流位置使Flink中的狀態容錯,從而爲引用程序提供無故障執行相同的語義。 --Flin

原创 Flink初入門-狀態

目錄   狀態運行: 被Keys化狀態和算子狀態: 算子狀態; 原始和託管狀態: Keys化使用託管狀態: 狀態運行: 本文檔介紹了在開發應用程序時如何使用Flink的狀態抽象。 被Keys化狀態和算子狀態: Flink有兩種基本的狀態

原创 Flink初入門-API使用(補)

目錄 數據存儲/接收器 迭代: 執行參數: 容錯: 控制延遲: 數據存儲/接收器 數據接收器使用DataStream將他們轉發到文件,socket,外部系統或者打印他們。Flink帶有各種被指的輸出格式,這些格式封裝再DataStream