關於Hadoop相關的各種概念及優缺點

Hadoop優勢

在這裏插入圖片描述

hdfs定義

在這裏插入圖片描述

hdfs優點

在這裏插入圖片描述在這裏插入圖片描述

什麼是hive

Hive:由Facebook開源用於解決海量結構化日誌的數據統計。
Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張表,並提供類SQL查詢功能。
本質是:將HQL轉化成MapReduce程序
1)Hive處理的數據存儲在HDFS
2)Hive分析數據底層的實現是MapReduce
3)執行程序運行在Yarn上

Hive的優缺點

優點
1)操作接口採用類SQL語法,提供快速開發的能力(簡單、容易上手)。
2)避免了去寫MapReduce,減少開發人員的學習成本。
3)Hive的執行延遲比較高,因此Hive常用於數據分析,對實時性要求不高的場合。
4)Hive優勢在於處理大數據,對於處理小數據沒有優勢,因爲Hive的執行延遲比較高。
5)Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
缺點
1.Hive的HQL表達能力有限
(1)迭代式算法無法表達
(2)數據挖掘方面不擅長,由於MapReduce數據處理流程的限制,效率更高的算法卻無法實現。
2.Hive的效率比較低
(1)Hive自動生成的MapReduce作業,通常情況下不夠智能化
(2)Hive調優比較困難,粒度較粗

mapreduce定義

在這裏插入圖片描述

mapreduce優缺點

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

flume定義

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構,靈活簡單。

flume優點

1.2 Flume的優點
1.可以和任意存儲進程集成。
2.輸入的的數據速率大於寫入目的存儲的速率,flume會進行緩衝,減小hdfs的壓力。
3.flume中的事務基於channel,使用了兩個事務模型(sender + receiver),確保消息被可靠發送。

zookeeper定義

Zookeeper是一個分佈式協調服務的開源概架,主要用來解決分佈式集羣中應用系統的一致性問題,例如怎樣避免網時操作同一數據造成髒讀的間題,ZooKee區本質上是一個分佈式的小文件存儲系統,提供基於類似於文件系統的目錄樹方式的數據存儲,並且可以對樹中的節點進行有效管理,從而用來維護和監控你存儲的數據的狀態變化,通過監控這些數據狀態的變化,從而可以達到基於數據的集羣管理,諸如:統一命名服務、分佈式配置管理、分佈式消息隊列、分佈式鎖、分佈式協調等功能。

zookeeper特點

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章