4、低價值密度（Value）這也是大數據的核心特徵。現實世界所產生的數據中，有價值的數據所佔比例很小。大數據最大的價值在於通過從大量不相關的各種類型的數據中，挖掘出對未來趨勢與模式預測分析有價值的數據，並通過機器學習方法、人工智能方法或數據挖掘方法深度分析，發現新規律和新知識，並運用於農業、金融、醫療等各個領域，從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。

二、從Hadoop框架討論大數據生態

1、概念

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構

主要用於解決：海量數據的存儲和海量數據的分析計算問題。

2、優點

1）高可靠性：因爲Hadoop假設計算元素和存儲會出現故障，因爲它維護多個工作數據副本，在出現故障時可以對失敗的節點重新分佈處理。

2）高擴展性：在集羣間分配任務數據，可方便的擴展數以千計的節點。

3）高效性：在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

4）高容錯性：自動保存多份副本數據，並且能夠自動將失敗的任務重新分配。

3、組成

1）Hadoop HDFS：（hadoop distribute file system ）一個高可靠、高吞吐量的分佈式文件系統。

2）Hadoop MapReduce：一個分佈式的離線並行計算框架。

3）Hadoop YARN：作業調度與集羣資源管理的框架。

4）Hadoop Common：支持其他模塊的工具模塊（Configuration、RPC、序列化機制、日誌操作）。

HDFS架構概述：

（1）NameNode（nn）：存儲文件的元數據，如文件名，文件目錄結構，文件屬性（生成時間、副本數、文件權限），

以及每個文件的塊列表和塊所在的DataNode等。

（2）DataNode（dn）：在本地文件系統中存儲文件塊數據，以及塊數據的校驗和。

（3）Secondary NameNode（2nn）：用來監控HDFS狀態的輔助後臺程序，每隔一段時間獲取HDFS元數據的快照。

YARN架構簡述：

1） ResourceManager(rm)：處理客戶端請求、啓動/監控ApplicationMaster、監控NodeManager、資源分配與調度；

2）NodeManager(nm)：單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令；

3）ApplicationMaster：數據切分、爲應用程序申請資源，並分配給內部任務、任務監控與容錯。

4）Container：對任務運行環境的抽象，封裝了CPU、內存等多維資源以及環境變量、啓動命令等任務運行相關的信息。

MapReduce架構簡述：

MapReduce將計算過程分爲兩個階段：Map（映射）和Reduce（歸約）

1）Map階段並行處理輸入數據

2）Reduce階段對Map結果進行彙總

三、大數據技術生態體系

四、推薦系統框架圖

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據及Hadoop的理解

一、大數據的特點：

二、從Hadoop框架討論大數據生態

1、概念

2、優點

3、組成

HDFS架構概述：

YARN架構簡述：

MapReduce架構簡述：

三、大數據技術生態體系

四、推薦系統框架圖

Linux入門(二)常用命令其一

SSM整合Springboot（一）簡單實現

Linux入門(五)Linux之安裝hadoop

大數據及Hadoop的理解

Linux入門(四)centOS連接MySQL與Navicat連接Linux中的MySql

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結