Hadoop體系介紹

1. Hadoop快速入門

1.1 數據

數據(data)是事實或觀察的結果，是對客觀事物的邏輯歸納，是用於表示客觀事物的未經加工的的原始素材。數據可以是連續的值，比如聲音、圖像，稱爲模擬數據。也可以是離散的，如符號、文字，稱爲數字數據。在計算機系統中，數據以二進制信息單元 0,1 的形式表示。

1.2 大數據

1.2.1 概念

指的是傳統數據處理應用軟件不足以處理（存儲和計算）它們的大而複雜的數據集
最基本的衡量：大小數據量最小的基本單位是 bit，按順序給出所有單位：bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB

據國際數據公司(IDC)統計，全球數據總量預計 2020 年達到 44ZB，中國數據量將達到 8060EB，佔全球數據總量的 18%

1.2.2 大數據特點

容量大，種類多，速度快，價值高

容量（Volume）：數據的大小決定所考慮的數據的價值和潛在的信息新浪微博，3 億用戶，每天上億條微博朋友圈，8 億用戶，每天億級別朋友圈
種類（Variety）：數據類型的多樣性，包括文本，圖片，視頻，音頻結構化數據：可以用二維數據庫表來抽象，抽取數據規律半結構化數據：介於結構化和非結構化之間，主要指 XML，HTML等，也可稱非結構化非結構化數據：不可用二維表抽象，比如圖片，圖像，音頻，視頻等
速度（Velocity）：指獲得數據的速度以及處理數據的速度數據的產生呈指數式爆炸式增長處理數據要求的延時越來越低
價值（Value）：合理運用大數據，以低成本創造高價值綜合價值大，隱含價值大單條數據記錄無價值，無用數據多
【總結】： 1、數據量大，處理難度大，但是蘊含價值也大 2、數據種類多樣，更加個性化，針對不同數據源進行多樣化的方式處理，結果更精確 3、要求對數據進行及時處理，追求更極致更完善的用戶體驗 4、數據成爲新的資源，掌握數據就掌握了巨大的財富
大數據崛起的根本原因： 1、數據生成的速度呈指數式爆炸增長 2、數據的存儲成本指數下降 3、流動數據增加，雲端數據增加 4、企業可用數據資源增大

1.2.3 大數據價值

在總數據量相同的情況下，與個別分析獨立的小型數據集（Data set）相比，將各個小型數據集合並後進行分析可得出許多額外的信息和數據關係性，可用來政治經濟國慶調控、察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定即時交通路況等，這樣的用途正是大型數據集盛行的原因

1.3 Hadoop 的產生背景

Hadoop 最早起源於 Nutch。Nutch 的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨着抓取網頁數量的增加，遇到了嚴重的可擴展性問題 ——如何解決數十億網頁的存儲和索引問題
2003 年、2004 年穀歌發表的兩篇論文爲該問題提供了可行的解決方案 1、分佈式文件系統GFS，可用於處理海量網頁的存儲 2、分佈式計算框架 MapReduce，可用於處理海量網頁的索引計算問題 3、分佈式數據庫 BigTabl，每一張表可以存儲上 billions 行和 millions 列
Nutch 的開發人員完成了相應的開源實現 HDFS 和 MapReduce，並從 Nutch 中剝離成爲獨立項目 Hadoop，到 2008 年 1 月，Hadoop 成爲 Apache 頂級項目，迎來了它的快速發展期

1.4 什麼是Hadoop

Hadoop 是 Apache 旗下的一套開源軟件平臺
Hadoop 提供的功能：利用服務器集羣，根據用戶的自定義業務邏輯，對海量數據進行分布式處理
Hadoop 的核心組件有
A．Common（基礎功能組件）（工具包，RPC 框架）JNDI 和 RPC
B．HDFS（Hadoop Distributed File System分佈式文件系統）
C．YARN（Yet Another Resources Negotiator 運算資源調度系統）
D．MapReduce（Map 和 Reduce 分佈式運算編程框架）
廣義上來說，Hadoop 通常是指一個更廣泛的概念–Hadoop 生態圈
官網介紹：http://hadoop.apache.org/

1.5 Hadoop在大數據和雲計算中的位置與關係

雲計算是分佈式計算、並行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。藉助 IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS（軟件即服務）等業務模式，把強大的計算能力提供給終端用戶
現階段，雲計算的兩大底層支撐技術爲“虛擬化”和“大數據技術”
而 Hadoop 則是雲計算的 PaaS 層的解決方案之一，並不等同於 PaaS，更不等同於雲計算本身

1.6 Hadoop技術應用框架概覽

1.6.1 Hadoop應用於數據服務基礎平臺建設

1.6.2 Hadoop用於用戶畫像

1.6.3 Hadoop用於網站點擊數據挖掘

最後總結：hadoop 並不會跟某個具體的行業或者某個具體的業務掛鉤，它只是一種用來做海量數據分析處理的工具

1.7 Hadoop 生態圈以及各組成部分的簡介

重點組件：
HDFS：Hadoop 的分佈式文件存儲系統
MapReduce：Hadoop 的分佈式程序運算框架，也可以叫做一種編程模型
Hive：基於 Hadoop 的類 SQL 數據倉庫工具
HBase：基於 Hadoop 的列式分佈式 NoSQL 數據庫
ZooKeeper：分佈式協調服務組件
Mahout：基於MapReduce/Flink/Spark 等分佈式運算框架的機器學習算法庫
Oozie/Azkaban：工作流調度引擎
Sqoop：數據遷入遷出工具
Flume：日誌採集工具

1.8 Hadoop就業情況及所需技能要求

1.8.1 Hadoop 整體行業情況

A、大數據產業已納入國家十三五規劃
B、各大城市都在進行智慧城市項目建設，而智慧城市的根基就是大數據綜合平臺
C、互聯網時代數據的種類，增長都呈現爆發式增長，各行業對數據的價值日益重視
D、相對於傳統 JAVAEE 技術領域來說，大數據領域的人才相對稀缺
E、隨着現代社會的發展，數據處理和數據挖掘的重要性只會增不會減，因此，大數據技術是一個尚在蓬勃發展且具有長遠前景的領域

1.8.2 Hadoop就業職位要求

大數據是個複合專業，包括應用開發、軟件平臺、算法、數據挖掘等，因此，大數據技術領域的就業選擇是多樣的，但就 Hadoop 而言，通常都需要具備以下技能或知識
1、硬實力

A、Hadoop 分佈式集羣的平臺搭建
B、Hadoop 分佈式文件系統 HDFS 的原理理解及使用
C、Hadoop 分佈式運算框架 MapReduce 的原理理解及編程
D、MySQL 數據庫，Hive 數據倉庫工具的熟練應用
E、Flume、Sqoop、Oozie/Azkaban 等輔助工具的熟練使用
F、Shell/Python 等腳本語言的開發能力
2、軟實力
A、解決問題的能力（調試，閱讀文檔）
B、溝通協調能力（尋求幫助）
C、學習提升自己的能力（自我提高）
D、組織管控能力（管理能力）

1.8.4 Hadoop相關職位的薪資水平

大數據技術或具體到 HADOOP 的就業需求目前主要集中在北上廣深一線城市，薪資待遇普遍高於傳統 JAVAEE 開發人員，以北京爲例：
北京 Hadoop：

北京Spark：

2.分佈式系統概述

PS：由於大數據技術領域的各類技術框架基本上都是分佈式系統，因此，理解 hadoop、storm、 spark 等技術框架，都需要具備基本的分佈式系統概念

概念講解：

A．集羣 + 負載均衡
B．分佈式
1、該軟件系統會劃分成多個子系統或模塊，各自運行在不同的機器上，子系統或模塊之間通過網絡通信進行協作，實現最終的整體功能
2、比如分佈式操作系統、分佈式程序設計語言及其編譯(解釋)系統、分佈式文件系統和分佈式數據庫系統等。
【總結】：利用多個節點共同協作完成一項或多項具體業務功能的系統就是分佈式系統

離線分析系統結構概述

PS：本環節主要感受數據分析系統的宏觀概念及處理流程，初步理解 hadoop 等框架在其中的應用環節，不用過於關注具體實現細節
離線數據分析流程：一個應用廣泛的數據分析系統：web 日誌數據挖掘

Hadoop入門體系介紹（1）