大數據及Hadoop的理解

目錄

一、大數據的特點:

二、從Hadoop框架討論大數據生態

         1、概念

2、優點

3、組成

HDFS架構概述:

YARN架構簡述

MapReduce架構簡述:

三、大數據技術生態體系

四、推薦系統框架圖


一、大數據的特點:

1、大量(Volume)大數據的特徵首先就體現爲“大”,從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨着時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別

2、高速(Velocity)大數據的產生非常迅速,主要通過互聯網傳輸。大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用於處理和計算數據,很多平臺都需要做到實時分析。數據無時無刻不在產生,誰的速度更快,誰就有優勢。

3、多樣(Variety)    數據來源多如手機,電腦,可穿戴設備,智能家居。數據格式多例如網絡日誌、圖片、音頻、視頻、地理位置信息等

4、低價值密度(Value)這也是大數據的核心特徵。現實世界所產生的數據中,有價值的數據所佔比例很小。大數據最大的價值在於通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。

二、從Hadoop框架討論大數據生態

1、概念

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構

主要用於解決:海量數據的存儲和海量數據的分析計算問題。

2、優點

1)高可靠性:因爲Hadoop假設計算元素和存儲會出現故障,因爲它維護多個工作數據副本,在出現故障時可以對失敗的節點重新分佈處理。

2)高擴展性:在集羣間分配任務數據,可方便的擴展數以千計的節點。

3)高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。

4)高容錯性:自動保存多份副本數據,並且能夠自動將失敗的任務重新分配。

3、組成

1)Hadoop HDFS:(hadoop distribute file system )一個高可靠、高吞吐量的分佈式文件系統

2)Hadoop MapReduce:一個分佈式的離線並行計算框架

3)Hadoop YARN:作業調度與集羣資源管理的框架

4)Hadoop Common:支持其他模塊的工具模塊(Configuration、RPC、序列化機制、日誌操作)。

HDFS架構概述:

(1)NameNode(nn):存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),

以及每個文件的塊列表和塊所在的DataNode等。

(2)DataNode(dn):在本地文件系統中存儲文件塊數據,以及塊數據的校驗和。

(3)Secondary NameNode(2nn):用來監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照。

YARN架構簡述:

1) ResourceManager(rm):處理客戶端請求、啓動/監控ApplicationMaster、監控NodeManager、資源分配與調度;

2)NodeManager(nm):單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令;

3)ApplicationMaster:數據切分、爲應用程序申請資源,並分配給內部任務、任務監控與容錯。

4)Container:對任務運行環境的抽象,封裝了CPU、內存等多維資源以及環境變量、啓動命令等任務運行相關的信息。

MapReduce架構簡述:

MapReduce將計算過程分爲兩個階段:Map(映射)和Reduce(歸約)

1)Map階段並行處理輸入數據

2)Reduce階段對Map結果進行彙總

三、大數據技術生態體系

四、推薦系統框架圖

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章