原创 Apache kafka 中zookeeper 的應用

正如ZooKeeper用於分佈式系統的協調和促進,Kafka使用ZooKeeper也是基於相同的原因。ZooKeeper用於管理、協調Kafka代理。每個Kafka代理都通過ZooKeeper協調其它Kafka代理。當Kafka系統中新增

原创 分佈式事務 - 兩階段提交與三階段提交

摘要: 在分佈式系統中,著有CAP理論,該理論由加州大學伯克利分校的Eric Brewer教授提出,該理論闡述了在一個分佈式系統中不可能同時滿足一致性(Consistency)、可用性(Availability),以及分區容錯性(Part

原创 hive靜態分區和動態分區

hive中創建分區表沒有什麼複雜的分區類型(範圍分區、列表分區、hash分區、混合分區等)。分區列也不是表中的一個實際的字段,而是一個或者多個僞列。意思是說在表的數據文件中實際上並不保存分區列的信息與數據。下面的語句創建了一個簡單的分區表

原创 Yarn 架構

yarn 基本架構 Resource Manager Application master node manager container  history server timeline server 參考資料:

原创 hive中的order by , sort by, distribute by, cluster by

1. order by     Hive中的order by跟傳統的sql語言中的order by作用是一樣的,會對查詢的結果做一次全局排序,所以說,只有hive的sql中制定了order by所有的數據都會到同一個reducer進行

原创 kafka leader選舉機制原理

kafka在所有broker中選出一個controller,所有Partition的Leader選舉都由controller決定。controller會將Leader的改變直接通過RPC的方式(比Zookeeper Queue的方式更高效

原创 HDFS 架構

2.X 版本的HDFS 架構圖如下: Active Namenode: 主Master(只有一個) 管理HDFS的命名空間(name space) 管理數據塊映射信息 配置副本策略 處理客戶端讀寫請求 Standby NameNode

原创 HDFS fsimage和edits合併實現原理

1. Hadoop 1.x 版本 fsimage和edits合併實現原理  在NameNode運行期間,HDFS的所有更新操作都是直接寫到edits中,久而久之edits文件將會變得很大;雖然這對NameNode運行時候是沒有什麼影響的,

原创 Yarn 資源調度器

Yarn的資源調度目前支持內存和CPU兩種資源。 Yarn支持三種調度方式:FIFO、FAIR和DRF分別是指先來先服務、公平調度和主資源公平調度 FIFO:先按照優先級高低調度,如果優先級相同,則按照提交時間先後順序調度,如果提交時

原创 HDFS 2.0 HA實現原理

在Hadoop2.0.0之前,NameNode(NN)在HDFS集羣中存在單點故障(single point of failure),每一個集羣中存在一個NameNode,如果NN所在的機器出現了故障,那麼將導致整個集羣無法利用,直到N

原创 HDFS 內部機制

1. 寫流程 2.讀流程 3.副本放置策略 4.可靠性策略 5.HDFS數據塊 6.HDFS 不適合小文件存儲 點贊 1 收藏 分享 文章舉報 RangeYan201

原创 Hive架構

Hive架構在Hadoop生態圈中已經是老生常談。儘管如此,很多資料並沒有將Hive模塊之間的關係描述的十分清楚,本人也在管理Hive數據倉庫時繞了不少彎路。所以我們仍要再談Hive架構,希望將積累的經驗總結出一套完整而又易懂的Hiv

原创 HDFS 優缺點

HDFS優點: 高容錯性:數據自動保存多個副本,副本丟失後,自動恢復適合批處理:移動計算而飛數據。數據位置暴露給計算框架適合大數據處理:GB,TB,設置PB級數據。百萬規模以上文件數量。10K+節點規模。流式文件訪問:一次性寫入,多次讀

原创 Hive 基礎之:分區、桶、Sort Merge Bucket Join

Hive 已是目前業界最爲通用、廉價的構建大數據時代數據倉庫的解決方案了,雖然也有 Impala 等後起之秀,但目前從功能、穩定性等方面來說,Hive 的地位尚不可撼動。 其實這篇博文主要是想聊聊 SMB join 的,Join

原创 Kafka 高性能吞吐揭祕

A high-throughput distributed messaging system. --Apache Kafka Kafka作爲時下最流行的開源消息系統,被廣泛地應用在數據緩衝、異步通信、彙集日誌、系統解耦等方面。相比較