《十小時入門大數據》學習筆記之初識Hadoop

筆記內容概括

    1. Hadoop概述
      1.1 Hadoop名字的由來
      1.2 Hadoop介紹
      1.3 Hadoop能做什麼
    1. Hadoop核心組件
      2.1 HDFS(分佈式文件系統)
      2.2 YARN(資源調度系統)
      2.3 MapReduce(分佈式計算框架)
    1. Hadoop優勢
    1. Hadoop發展史
    1. Hadoop 生態系統
      5.1 狹義Hadoop VS 廣義Hadoop
      5.2 Hadoop生態系統的特點
    1. Hadoop發行版本的選擇

1、Hadoop概述

1.1 Hadoop名字的由來

  • Hadoop項目作者的孩子給一個棕黃色的大象樣子的填充玩具的命名 Hadoop的官網:http://hadoop.apache.org ,一定要學會看官網、養成看官網的習慣。
1.2 Hadoop介紹

Hadoop是Apache的一個頂級項目、是開源的、分佈式存儲+分佈式計算平臺;它由以下幾個模塊構成:
Hadoop Common: 這是支持hadoop其他模塊的通用工具模塊
Hadoop Distributed File System(HDFS):分佈式文件系統
Hadoop YARN: 統一資源管理和任務調度
Hadoop MapReduce:基於yarn系統的分佈式計算框架
下圖是官網的描述:

1.3 Hadoop能做什麼

搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務,如:智能商業、日誌分析、搜索引擎、數據挖掘等場景。

2、Hadoop核心組件

/2.1 HDFS(分佈式文件系統)

  • 源自於Google的GFS論文,論文發表於2003年10月
  • HDFS是GFS的克隆版
  • HDFS特點:擴展性&容錯性&海量數據存儲
  • 將文件切分成指定大小的數據塊並以多副本的存儲在多個機器上
  • 數據切分、多副本、容錯等操作對用戶是透明的
2.2 YARN(資源調度系統)
  • YARN: Yet Another Resource Negotiator
  • 負責整個集羣資源的管理和調度
  • YARN特點:擴展性&容錯性&多框架資源統一調度
2.3 MapReduce(分佈式計算框架)
  • 源自於Google的MapReduce論文。論文發表於2004年12月
  • MapReduce是Google MapReduce的克隆版
  • MapReduce特點: 擴展性&容錯性&海量數據離線處理

3、Hadoop優勢

(1)、高可靠性

  • 數據存儲:數據塊多副本
  • 數據計算: 重新調度作業計算
    (2)、高擴展性
  • 存儲/計算資源不夠時,可以橫向的線性擴展機器
  • 一個集羣中可以包含數以千計的節點
    (3)、其他
  • 存儲在廉價機器上,降低成本
  • 成熟的生態圈

4、Hadoop的發展史

這篇博文有很詳細的介紹:十年了,Hadoop的前世今生博文鏈接

5、Hadoop生態系統

5.1 狹義Hadoop VS 廣義Hadoop
  • 狹義Hadoop:
    指的是一個適合大數據分佈式存儲(HDFS)、分佈式計算(MapReduce)和資源調度(YARN)平臺,即傳統意義上的Hadoop。
  • 廣義Hadoop:指的是整個Hadoop生態系統,Hadoop生態系統是一個很龐大的概念,Hadoop是其中最重要最基礎的一部分;生態系統中的每一個子系統只能解決某一特定的問題域(甚至可能很窄),不搞統一型的一個全能系統,而是小而精的多個小系統
5.2 Hadoop生態系統的特點
  • 開源、社區活躍
  • 囊括了大數據處理的方方面面
  • 成熟的生態圈

6、 Hadoop常用發行版本和和選型

  • Apcahe Hadoop:存在jar包衝突的問題,一般只用於學習;
  • CDH(Cloudera Distributed Hadoop):商業版,不存在jar衝突問題,配置簡單、文檔詳細,具有容易升級的優點,生產環境中大多選擇該版本,缺點是代碼不開源,下載地址
  • HDP(Hortonworks Data Platform):存在安裝升級和刪除節點困難的問題,一般也應用於商業場景。

《十小時入門大數據》之系列學習筆記

《十小時入門大數據》學習筆記之大數據概述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章