原创 WaterDrop On Spark(v1.x 版本只支持spark)

前言 Waterdrop 是一個非常易用,高性能,能夠應對海量數據的實時數據處理產品,構建於Apache Spark之上。 開源項目地址:https://interestinglab.github.io/waterdrop Spark固然

原创 SparkStreaming + kafka 的 offset 保存在 Zookeeper、MySQL、HBase、Redis,kafka 中

前言 (代碼親測) Streaming-kafka-0-8            mysql、zookeeper Streaming-kafka-0-10          kafka、redis 其中都是翻閱前輩們的代碼分享,總結匯總在

原创 DataX 使用筆記

寫在前面 DataX 是阿里巴巴集團內被廣泛使用的異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各種異構數據源之間穩定高效的數

原创 WaterDrop on spark/flink(v2.x 支持spark/flink)

(注:flink版本>=1.9.0,spark版本>=2.x.x) 使用場景 海量數據ETL 海量數據聚合 多源數據處理 特性 簡單易用,靈活配置,無需開發 實時流式處理 高性能 海量數據處理能力 模塊化和插件化,易於擴展 支持利用SQL

原创 sparkStream 學習代碼

SparkStreaming消費kafka有兩週模式(receive 和 Direct) 一、SparkStreaming + Kafka Receiver模式 SparkStreaming + Kafka Reveiver模式處理數據採

原创 mysql 連接池(代碼示例)

SparkSql 連接 Mysql JDBC 通過 mysql 配置文件 application.conf 配置application.conf文件 導入 config 包: mysql 工具類 Jdbc_Utils.scala p

原创 Redis API詳解

前言 REmote DIctionary Server(Redis)是一個基於key-value鍵值對的持久化數據庫存儲系統。redis和大名鼎鼎的Memcached緩存服務軟件很像,但是redis支持的數據存儲類型比memcached更

原创 Kafka 提交 offset 機制

前言 在kafka 0.9版本之後,kafka爲了降低zookeeper的io讀寫,減少network data transfer,也自己實現了在kafka server上存儲consumer,topic,partitions,offse

原创 flume 學習筆記

測試 flume 案例 前臺打印測試(單節點flume測試) # 定義這個 agent 中各個組件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置 source 組件:

原创 HBase 學習之路一(基礎知識)

目錄 HBase數據庫介紹 簡介 表結構邏輯視圖 RowKey 列族(Column Family) 時間戳 Cell HBase 集羣結構 HBase 集羣搭建 安裝步驟 HBase 命令行演示 HBase java API代碼 HBas

原创 Spark 之 Graphx學習筆記

前言 寫此博客時,我也是剛接觸Spark GraphX,很多東西都一知半解,不過還好對Spark原理有一定的瞭解。爲了,進一步學習:可能你會有很多的手段,比如官網(這個是最直接了當,也是最可靠的方法,但需要你有一定的英語能力),博

原创 SparkStreaming + kafka 的 offset 保存在 Zookeeper、MySQL、HBase、Redis中

前言 (代碼親測) Kafka做爲一款流行的分佈式發佈訂閱消息系統,以高吞吐、低延時、高可靠的特點著稱,已經成爲Spark Streaming常用的流數據來源。 官方提供的思路就是,把JavaInputDStream轉換爲OffsetRa

原创 kafka 各種操作

1. 各種shell操作 kafka 各種shell操作: 1.每個節點啓動 kafka nohup kafka-server-start.sh /home/hadoop/kafka_2.12-2.2.2/config/server

原创 常用正則表達式

來源於菜鳥教程:http://c.runoob.com/front-end/854 1) ?:匹配0個或一個字符 2) * :匹配0個或多個字符 2) ^ :匹配字串開始位置 3) [0-9]+ :匹配多個數字,[0-9]:匹配單個數字

原创 git相關適用命令

  一.創建版本庫、提交 1. git config global user.name "Jerry" 設置用戶名 2. git config global user.email "1054