原创 安裝與測試

安裝 1、下載tar包,可以使用wget +url或者到官方網站上下載tar包 2、解壓到指定目錄,使用tar命令 3、進入到配置文件中,進行簡單的配置即可使用 即可進行使用 簡單測試 進入到flume配置文件,配置flume.conf

原创 source示例

1、配置文件case2_avro.conf #配置內容 #name the component on this agent a1.sources = r1 a1.channels= c1 a1.sinks = k1 #describe

原创 HiveQL:數據操作

向管理表中裝載數據: load data local inpath '/home/demo/data/' overwrite into table emp partition(state='CHN',city='BJ'); 解析: loc

原创 Spark性能優化指南——高級篇

本文轉發自美團點評技術團隊,原文鏈接https://tech.meituan.com/spark-tuning-basic.html 前言 繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後,本文作爲《Spar

原创 Kafka設計解析(三)- Kafka High Availability (下)

本文轉發自Jason’s Blog,原文鏈接 http://www.jasongj.com/2015/06/08/KafkaColumn3 摘要   本文在上篇文章基礎上,更加深入講解了Kafka的HA機制,主要闡述了HA相關各

原创 Kafka設計解析(四)- Kafka Consumer設計解析

本文轉發自技術世界,原文鏈接 http://www.jasongj.com/2015/08/09/KafkaColumn4 摘要   本文主要介紹了Kafka High Level Consumer,Consumer Group,

原创 Spark性能優化指南——基礎篇

本文轉發自美團點評技術團隊,原文鏈接https://tech.meituan.com/spark-tuning-basic.html 前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的

原创 Kafka設計解析(二)- Kafka High Availability (上)

本文轉發自Jason’s Blog,原文鏈接 http://www.jasongj.com/2015/04/24/KafkaColumn2 摘要   Kafka在0.8以前的版本中,並不提供High Availablity機制,

原创 Kafka設計解析(一)- Kafka背景及架構介紹

本文轉發自Jason’s Blog,原文鏈接 http://www.jasongj.com/2015/03/10/KafkaColumn1 摘要   Kafka是由LinkedIn開發並開源的分佈式消息系統,因其分佈式及高吞吐率

原创 集羣數據遷移

靜態遷移方案(必須在hbase集羣停掉的情況下進行) hadoop distcp 動態遷移方案 三種: Replication備份方案 修改hbase-site.xml配置,增加hbase.replication屬性,增加表屬性REPL

原创 HBase Version

HBase中版本是按倒序排列的,因此當讀取到這個文件時,最先找到的是最近的版本。 含版本的操作: (1) Get/Scan Get實在Scan的基礎上實現的。 Get在默認情況下返回的是最近版本的cell,如果想要返回多個版本,可以通過

原创 在線數據備份

hbase複製是一種在不同hbase部署中複製數據的一種方法,它可以作爲一種故障恢復的方法,並提高hbase層次的高可用性 hbase複製架構中最基本的是“主推送”因爲每個regionserver都有自己

原创 HBase WAL機制

WAL預寫日誌 客戶端向Regionserver提交數據的時候,會優先寫WAL日誌(Hlog),只有當WAL日誌寫成功以後,客戶端纔會告訴提交數據成功,如果寫WAL失敗則會告訴寫數據失敗 一個Regionserver上的所有Region共

原创 HBase刪除

Delete用於從表中刪除數據。HTable除了提供刪除方法delete()外,還有一個與之對應的類Delete,用戶可以通過多種方法限定要刪除的列。 HBase的Delete操作可以指定刪除某個列簇或某個列,或者指定某個時間戳,刪除

原创 HCatalog

HCatalog:Apache HCatalog是基於Apache Hadoop之上的數據表和存儲管理服務。 提供一個共享的模式和數據類型的機制。 抽象出表,使用戶不必關心他們的數據怎麼存儲。 提供可操作的跨數據處理工具,如Pig,Map