目錄
一、大數據的特點:
一、大數據的特點:
1、大量(Volume)大數據的特徵首先就體現爲“大”,從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨着時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別
2、高速(Velocity)大數據的產生非常迅速,主要通過互聯網傳輸。大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用於處理和計算數據,很多平臺都需要做到實時分析。數據無時無刻不在產生,誰的速度更快,誰就有優勢。
3、多樣(Variety) 數據來源多如手機,電腦,可穿戴設備,智能家居。數據格式多例如網絡日誌、圖片、音頻、視頻、地理位置信息等
4、低價值密度(Value)這也是大數據的核心特徵。現實世界所產生的數據中,有價值的數據所佔比例很小。大數據最大的價值在於通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。
二、從Hadoop框架討論大數據生態
1、概念
Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構
主要用於解決:海量數據的存儲和海量數據的分析計算問題。
2、優點
1)高可靠性:因爲Hadoop假設計算元素和存儲會出現故障,因爲它維護多個工作數據副本,在出現故障時可以對失敗的節點重新分佈處理。
2)高擴展性:在集羣間分配任務數據,可方便的擴展數以千計的節點。
3)高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
4)高容錯性:自動保存多份副本數據,並且能夠自動將失敗的任務重新分配。
3、組成
1)Hadoop HDFS:(hadoop distribute file system )一個高可靠、高吞吐量的分佈式文件系統。
2)Hadoop MapReduce:一個分佈式的離線並行計算框架。
3)Hadoop YARN:作業調度與集羣資源管理的框架。
4)Hadoop Common:支持其他模塊的工具模塊(Configuration、RPC、序列化機制、日誌操作)。
HDFS架構概述:
(1)NameNode(nn):存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),
以及每個文件的塊列表和塊所在的DataNode等。
(2)DataNode(dn):在本地文件系統中存儲文件塊數據,以及塊數據的校驗和。
(3)Secondary NameNode(2nn):用來監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照。
YARN架構簡述:
1) ResourceManager(rm):處理客戶端請求、啓動/監控ApplicationMaster、監控NodeManager、資源分配與調度;
2)NodeManager(nm):單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令;
3)ApplicationMaster:數據切分、爲應用程序申請資源,並分配給內部任務、任務監控與容錯。
4)Container:對任務運行環境的抽象,封裝了CPU、內存等多維資源以及環境變量、啓動命令等任務運行相關的信息。
MapReduce架構簡述:
MapReduce將計算過程分爲兩個階段:Map(映射)和Reduce(歸約)
1)Map階段並行處理輸入數據
2)Reduce階段對Map結果進行彙總
三、大數據技術生態體系
四、推薦系統框架圖