Hadoop入門教程 詳細的入門實戰教程

前言

Hadoop 在大數據技術體系中的地位至關重要,Hadoop 是大數據技術的基礎,對Hadoop基礎知識的掌握的紮實程度,會決定在大數據技術道路上走多遠。

這是一篇入門文章,Hadoop 的學習方法很多,網上也有很多學習路線圖。本文的思路是:以安裝部署 Apache Hadoop2.x 版本爲主線,來介紹 Hadoop2.x 的架構組成、各模塊協同工作原理、技術細節。安裝不是目的,通過安裝認識Hadoop纔是目的。

本文分爲五個部分、十三節、四十九步。

第一部分:Linux環境安裝

Hadoop是運行在Linux,雖然藉助工具也可以運行在Windows上,但是建議還是運行在Linux系統上,第一部分介紹Linux環境的安裝、配置、Java JDK安裝等。

第二部分:Hadoop本地模式安裝

Hadoop 本地模式只是用於本地開發調試,或者快速安裝體驗 Hadoop,這部分做簡單的介紹。

第三部分:Hadoop僞分佈式模式安裝

學習 Hadoop 一般是在僞分佈式模式下進行。這種模式是在一臺機器上各個進程上運行 Hadoop 的各個模塊,僞分佈式的意思是雖然各個模塊是在各個進程上分開運行的,但是隻是運行在一個操作系統上的,並不是真正的分佈式。

第四部分:完全分佈式安裝

完全分佈式模式纔是生產環境採用的模式,Hadoop 運行在服務器集羣上,生產環境一般都會做HA,以實現高可用。

第五部分:Hadoop HA安裝

HA是指高可用,爲了解決Hadoop單點故障問題,生產環境一般都做HA部署。這部分介紹瞭如何配置Hadoop2.x的高可用,並簡單介紹了HA的工作原理。
安裝過程中,會穿插簡單介紹涉及到的知識。希望能對大家有所幫助。 

第一部分:Linux環境安裝

第一步、配置 Vmware NAT 網絡

一、Vmware 網絡模式介紹

參考:http://blog.csdn.net/collection4u/article/details/14127671

二、NAT模式配置

NAT是網絡地址轉換,是在宿主機和虛擬機之間增加一個地址轉換服務,負責外部和虛擬機之間的通訊轉接和IP轉換。

我們部署Hadoop集羣,這裏選擇NAT模式,各個虛擬機通過NAT使用宿主機的IP來訪問外網。

我們的要求是集羣中的各個虛擬機有固定的IP、可以訪問外網,所以進行如下設置:

1. Vmware 安裝後,默認的 NAT 設置如下:

2. 默認的設置是啓動DHCP服務的,NAT會自動給虛擬機分配IP,但是我們需要將各個機器的IP固定下來,所以要取消這個默認設置。

3. 爲機器設置一個子網網段,默認是192.168.136網段,我們這裏設置爲100網段,將來各個虛擬機Ip就爲 192.168.100.*。

4. 點擊NAT設置按鈕,打開對話框,可以修改網關地址和DNS地址。這裏我們爲NAT指定DNS地址。

5. 網關地址爲當前網段裏的.2地址,好像是固定的,我們不做修改,先記住網關地址就好了,後面會用到。

第二步、安裝Linux操作系統

三、Vmware 上安裝 Linux系統

1. 文件菜單選擇新建虛擬機

2. 選擇經典類型安裝,下一步。

3. 選擇稍後安裝操作系統,下一步。

4. 選擇 Linux 系統,版本選擇 CentOS 64 位。

5. 命名虛擬機,給虛擬機起個名字,將來顯示在Vmware左側。並選擇Linux系統保存在宿主機的哪個目錄下,應該一個虛擬機保存在一個目錄下,不能多個虛擬機使用一個目錄。

6. 指定磁盤容量,是指定分給Linux虛擬機多大的硬盤,默認20G就可以,下一步。

7. 點擊自定義硬件,可以查看、修改虛擬機的硬件配置,這裏我們不做修改。

8. 點擊完成後,就創建了一個虛擬機,但是此時的虛擬機還是一個空殼,沒有操作系統,接下來安裝操作系統。

9. 點擊編輯虛擬機設置,找到DVD,指定操作系統ISO文件所在位置。

10. 點擊開啓此虛擬機,選擇第一個回車開始安裝操作系統。

11. 設置 root 密碼。

12. 選擇 Desktop,這樣就會裝一個 Xwindow。

13. 先不添加普通用戶,其他用默認的,就把Linux安裝完畢了。

四、設置網絡

因爲 Vmware 的 NAT 設置中關閉了 DHCP 自動分配 IP 功能,所以 Linux 還沒有 IP,需要我們設置網絡各個參數。

1. 用 root 進入 Xwindow,右擊右上角的網絡連接圖標,選擇修改連接。

2. 網絡連接裏列出了當前 Linux 裏所有的網卡,這裏只有一個網卡 System eth0,點擊編輯。

3. 配置IP、子網掩碼、網關(和NAT設置的一樣)、DNS等參數,因爲NAT裏設置網段爲100.*,所以這臺機器可以設置爲192.168.100.10網關和NAT一致,爲192.168.100.2

4. 用ping來檢查是否可以連接外網,如下圖,已經連接成功。

五、修改 Hostname

1. 臨時修改 hostname

 

[root@localhost Desktop]# hostname bigdata-senior01.chybinmy.com

這種修改方式,系統重啓後就會失效。

2. 永久修改 hostname

想永久修改,應該修改配置文件 /etc/sysconfig/network。

 

命令:[root@bigdata-senior01 ~] vim /etc/sysconfig/network

打開文件後,

 

NETWORKING=yes  #使用網絡HOSTNAME=bigdata-senior01.chybinmy.com  #設置主機名

六、配置Host

 

命令:[root@bigdata-senior01 ~] vim /etc/hosts添加hosts: 192.168.100.10 bigdata-senior01.chybinmy.com

七、關閉防火牆

學習環境可以直接把防火牆關閉掉。

(1)    用root用戶登錄後,執行查看防火牆狀態。

 

[root@bigdata-senior01 hadoop]# service iptables status

(2)    用 [root@bigdata-senior01 hadoop]# service iptables stop 關閉防火牆,這個是臨時關閉防火牆。

 

[root@bigdata-senior01 hadoop-2.5.0]# service iptables stopiptables: Setting chains to policy ACCEPT: filter          [  OK  ]iptables: Flushing firewall rules:                         [  OK  ]iptables: Unloading modules:                               [  OK  ]

(3)    如果要永久關閉防火牆用。

 

[root@bigdata-senior01 hadoop]# chkconfig iptables off

關閉,這種需要重啓才能生效。

八、關閉selinux

selinux是Linux一個子安全機制,學習環境可以將它禁用。

第三步、安裝JDK

九、安裝 Java JDK

1. 查看是否已經安裝了 java JDK。

 

[root@bigdata-senior01 Desktop]# java –version

注意:Hadoop 機器上的 JDK,最好是 Oracle 的 Java JDK,不然會有一些問題,比如可能沒有 JPS 命令。
如果安裝了其他版本的 JDK,卸載掉。

2. 安裝 java JDK

(1) 去下載 Oracle 版本 Java JDK:jdk-7u67-linux-x64.tar.gz

(2) 將 jdk-7u67-linux-x64.tar.gz 解壓到 /opt/modules 目錄下

 

[root@bigdata-senior01 /]# tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules

(3) 添加環境變量

設置 JDK 的環境變量 JAVA_HOME。需要修改配置文件/etc/profile,追加

 

export JAVA_HOME="/opt/modules/jdk1.7.0_67"export PATH=$JAVA_HOME/bin:$PATH

修改完畢後,執行 source /etc/profile

(4)安裝後再次執行 java –version,可以看見已經安裝完成。

第二部分:Hadoop本地模式安裝

第四步、Hadoop部署模式

Hadoop 部署模式有:本地模式、僞分佈模式、完全分佈式模式、HA完全分佈式模式。

區分的依據是 NameNode、DataNode、ResourceManager、NodeManager等模塊運行在幾個JVM進程、幾個機器。

模式名稱 各個模塊佔用的JVM進程數 各個模塊運行在幾個機器數上
本地模式 1個 1個
僞分佈式模式 N個 1個
完全分佈式模式 N個 N個
HA完全分佈式 N個 N個

第五步、本地模式部署

十、本地模式介紹

本地模式是最簡單的模式,所有模塊都運行與一個JVM進程中,使用的本地文件系統,而不是HDFS,本地模式主要是用於本地開發過程中的運行調試用。下載 hadoop 安裝包後不用任何設置,默認的就是本地模式。

十一、解壓hadoop後就是直接可以使用

1. 創建一個存放本地模式hadoop的目錄

 

[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopstandalone

2. 解壓 hadoop 文件

3. 確保 JAVA_HOME 環境變量已經配置好

 

[hadoop@bigdata-senior01 modules]$ echo ${JAVA_HOME}/opt/modules/jdk1.7.0_67

十二、運行MapReduce程序,驗證

我們這裏用hadoop自帶的wordcount例子來在本地模式下測試跑mapreduce。

1. 準備mapreduce輸入文件wc.input

 

[hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.inputhadoop mapreduce hivehbase spark stormsqoop hadoop hivespark hadoop

2. 運行 hadoop 自帶的 mapreduce Demo

這裏可以看到 job ID 中有 local 字樣,說明是運行在本地模式下的。

3. 查看輸出文件

本地模式下,mapreduce 的輸出是輸出到本地。

輸出目錄中有 _SUCCESS 文件說明 JOB 運行成功,part-r-00000 是輸出結果文件。 

第三部分:Hadoop 僞分佈式模式安裝

第六步 僞分佈式 Hadoop 部署過程

十三、Hadoop 所用的用戶設置

1. 創建一個名字爲 hadoop 的普通用戶

2. 給 hadoop 用戶 sudo 權限

設置權限,學習環境可以將 hadoop 用戶的權限設置的大一些,但是生產環境一定要注意普通用戶的權限限制。

注意:如果root用戶無權修改sudoers文件,先手動爲root用戶添加寫權限。

3. 切換到hadoop用戶


 

[root@bigdata-senior01 ~]# su - hadoop[hadoop@bigdata-senior01 ~]$

4. 創建存放hadoop文件的目錄

5. 將hadoop文件夾的所有者指定爲hadoop用戶

如果存放hadoop的目錄的所有者不是hadoop,之後hadoop運行中可能會有權限問題,那麼就講所有者改爲hadoop。

十四、解壓Hadoop目錄文件

1. 複製 hadoop-2.5.0.tar.gz 到/opt/modules目錄下。

2. 解壓 hadoop-2.5.0.tar.gz

 

十五、配置 Hadoop

1. 配置 Hadoop 環境變量

追加配置:

執行:source /etc/profile 使得配置生效

驗證 HADOOP_HOME 參數:

2. 配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh 文件的 JAVA_HOME參數

3. 配置 core-site.xml

[hadoop@bigdata-senior01 ~]$ sudo vim  ${HADOOP_HOME}/etc/hadoop/core-site.xml

(1) fs.defaultFS 參數配置的是HDFS的地址。

(2)    hadoop.tmp.dir配置的是Hadoop臨時目錄,比如HDFS的NameNode數據默認都存放這個目錄下,查看*-default.xml等默認配置文件,就可以看到很多依賴${hadoop.tmp.dir}的配置。

默認的hadoop.tmp.dir/tmp/hadoop-${user.name},此時有個問題就是 NameNode 會將 HDFS 的元數據存儲在這個/tmp目錄下,如果操作系統重啓了,系統會清空 /tmp 目錄下的東西,導致NameNode元數據丟失,是個非常嚴重的問題,所有我們應該修改這個路徑。

  • 創建臨時目錄:

  • 將臨時目錄的所有者修改爲 hadoop

  • 修改 hadoop.tmp.dir

十六、配置、格式化、啓動 HDFS

1. 配置 hdfs-site.xml

dfs.replication 配置的是 HDFS存 儲時的備份數量,因爲這裏是僞分佈式環境只有一個節點,所以這裏設置爲1。

2. 格式化 HDFS

格式化是對 HDFS 這個分佈式文件系統中的 DataNode 進行分塊,統計所有分塊後的初始元數據的存儲在 NameNode 中。

格式化後,查看 core-site.xml 裏 hadoop.tmp.dir(本例是 /opt/data 目錄)指定的目錄下是否有了 dfs 目錄,如果有,說明格式化成功。

注意:

  1. 格式化時,這裏注意 hadoop.tmp.dir 目錄的權限問題,應該 hadoop 普通用戶有讀寫權限纔行,可以將 /opt/data 的所有者改爲 hadoop。
    [hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown -R hadoop:hadoop /opt/data

  2. 查看 NameNode 格式化後的目錄。

fsimage 是 NameNode 元數據在內存滿了後,持久化保存到的文件。

fsimage*.md5 是校驗文件,用於校驗 fsimage 的完整性。

seen_txid 是 hadoop 的版本

vession 文件裏保存:

  • namespaceID:NameNode 的唯一 ID。

  • clusterID:集羣 ID,NameNode 和 DataNode 的集羣 ID 應該一致,表明是一個集羣。

3. 啓動 NameNode

4. 啓動 DataNode

5. 啓動 SecondaryNameNode

6. JPS 命令查看是否已經啓動成功,有結果就是啓動成功了。

7. HDFS 上測試創建目錄、上傳、下載文件

HDFS 上創建目錄

上傳本地文件到 HDFS 上

讀取 HDFS 上的文件內容

從 HDFS上 下載文件到本地


 

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -get /demo1/core-site.xml

十七、配置、啓動YARN

1. 配置mapred-site.xml

默認沒有mapred-site.xml文件,但是有個mapred-site.xml.template配置模板文件。複製模板生成mapred-site.xml。

添加配置如下:

指定 mapreduce 運行在 yarn 框架上。

2. 配置 yarn-site.xml

添加配置如下:

  • yarn.nodemanager.aux-services 配置了 yarn 的默認混洗方式,選擇爲 mapreduce 的默認混洗算法。

  • yarn.resourcemanager.hostname 指定了 Resourcemanager 運行在哪個節點上。

3. 啓動 Resourcemanager

4. 啓動 nodemanager

5. 查看是否啓動成功

可以看到 ResourceManager、NodeManager 已經啓動成功了。

6. YARN 的 Web 頁面

YARN 的 Web 客戶端端口號是 8088,通過 http://192.168.100.10:8088/ 可以查看。

十八、運行 MapReduce Job

在 Hadoop 的 share 目錄裏,自帶了一些 jar 包,裏面帶有一些 mapreduce 實例小例子,位置在 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar,可以運行這些例子體驗剛搭建好的Hadoop平臺,我們這裏來運行最經典的 WordCount 實例。

1. 創建測試用的 Input 文件

創建輸入目錄:

創建原始文件:

在本地 /opt/data 目錄創建一個文件 wc.input,內容如下。

將 wc.input 文件上傳到 HDFS 的 /wordcountdemo/input 目錄中:

2. 運行 WordCount MapReduce Job

3. 查看輸出結果目錄

  • output 目錄中有兩個文件,_SUCCESS 文件是空文件,有這個文件說明Job執行成功。

  • part-r-00000文件是結果文件,其中-r-說明這個文件是 Reduce 階段產生的結果,mapreduce 程序執行時,可以沒有 reduce 階段,但是肯定會有 map 階段,如果沒有 reduce 階段這個地方有是-m-。

  • 一個 reduce 會產生一個 part-r- 開頭的文件。

  • 查看輸出文件內容。

結果是按照鍵值排好序的。

十九、停止 Hadoop

二十、 Hadoop 各個功能模塊的理解

1. HDFS模塊

HDFS 負責大數據的存儲,通過將大文件分塊後進行分佈式存儲方式,突破了服務器硬盤大小的限制,解決了單臺機器無法存儲大文件的問題,HDFS 是個相對獨立的模塊,可以爲 YARN 提供服務,也可以爲 HBase 等其他模塊提供服務。

2. YARN 模塊

YARN 是一個通用的資源協同和任務調度框架,是爲了解決 Hadoop1.x 中MapReduce 裏 NameNode 負載太大和其他問題而創建的一個框架。

YARN 是個通用框架,不止可以運行 MapReduce,還可以運行Spark、Storm等其他計算框架。

3. MapReduce 模塊

MapReduce 是一個計算框架,它給出了一種數據處理的方式,即通過 Map 階段、Reduce階段來分佈式地流式處理數據。它只適用於大數據的離線處理,對實時性要求很高的應用不適用。

第七步 開啓歷史服務

二十一、歷史服務介紹

Hadoop 開啓歷史服務可以在 web 頁面上查看 Yarn 上執行 job 情況的詳細信息。可以通過歷史服務器查看已經運行完的 Mapreduce 作業記錄,比如用了多少個 Map、用了多少個 Reduce、作業提交時間、作業啓動時間、作業完成時間等信息。

二十二、開啓歷史服務

開啓後,可以通過 Web 頁面查看歷史服務器:

http://bigdata-senior01.chybinmy.com:19888/

二十三、Web 查看 job 執行歷史

1. 運行一個 mapreduce 任務

2. job 執行中

3. 查看 job 歷史

歷史服務器的 Web 端口默認是19888,可以查看Web界面。

但是在上面所顯示的某一個 Job 任務頁面的最下面,Map 和 Reduce 個數的鏈接上,點擊進入 Map 的詳細信息頁面,再查看某一個 Map 或者 Reduce 的詳細日誌是看不到的,是因爲沒有開啓日誌聚集服務。

二十四、開啓日誌聚集

4. 日誌聚集介紹

MapReduce是在各個機器上運行的,在運行過程中產生的日誌存在於各個機器上,爲了能夠統一查看各個機器的運行日誌,將日誌集中存放在HDFS上,這個過程就是日誌聚集。

5. 開啓日誌聚集

配置日誌聚集功能:

Hadoop 默認是不啓用日誌聚集的。在 yarn-site.xml 文件裏配置啓用日誌聚集。

yarn.log-aggregation-enable:是否啓用日誌聚集功能。

yarn.log-aggregation.retain-seconds:設置日誌保留時間,單位是秒。

將配置文件分發到其他節點:

重啓 Yarn 進程:

重啓 HistoryServer 進程:

6. 測試日誌聚集

運行一個 demo MapReduce,使之產生日誌:

查看日誌:

運行 Job 後,就可以在歷史服務器 Web 頁面查看各個 Map 和 Reduce 的日誌了。  

第四部分:完全分佈式安裝

第八步 完全布式環境部署 Hadoop

完全分部式是真正利用多臺 Linux 主機來進行部署 Hadoop,對 Linux 機器集羣進行規劃,使得 Hadoop 各個模塊分別部署在不同的多臺機器上。

二十五、環境準備

1. 克隆虛擬機

  • Vmware 左側選中要克隆的機器,這裏對原有的 BigData01 機器進行克隆,虛擬機菜單中,選中管理菜單下的克隆命令。

  • 選擇“創建完整克隆”,虛擬機名稱爲 BigData02,選擇虛擬機文件保存路徑,進行克隆。

  • 再次克隆一個名爲 BigData03 的虛擬機。

2. 配置網絡

修改網卡名稱:

在 BigData02 和 BigData03 機器上編輯網卡信息。執行 sudo vim /etc/udev/rules.d/70-persistent-net.rules 命令。因爲是從 BigData01 機器克隆來的,所以會保留 BigData01 的網卡 eth0,並且再添加一個網卡 eth1。

並且 eth0 的 Mac 地址和 BigData01 的地址是一樣的,Mac 地址不允許相同,所以要刪除 eth0,只保留 eth1 網卡,並且要將 eth1改名爲 eth0。將修改後的 eth0 的 mac 地址複製下來,修改 network-scripts 文件中的 HWADDR 屬性。

修改網絡參數:

BigData02機器IP改爲192.168.100.12

BigData03機器IP改爲192.168.100.13

3. 配置 Hostname

BigData02 配置 hostname 爲 bigdata-senior02.chybinmy.com

BigData03 配置 hostname 爲 bigdata-senior03.chybinmy.com

4. 配置 hosts

BigData01、BigData02、BigData03 三臺機器 hosts 都配置爲:

5. 配置 Windows 上的 SSH 客戶端

在本地 Windows 中的 SSH 客戶端上添加對 BigData02、BigData03 機器的SSH鏈接。

二十六、服務器功能規劃

爲了和之前 BigData01 機器上安裝僞分佈式 Hadoop 區分開來,我們將 BigData01上的 Hadoop 服務都停止掉,然後在一個新的目錄  /opt/modules/app下安裝另外一個Hadoop。

二十七、在第一臺機器上安裝新的 Hadoop

我們採用先在第一臺機器上解壓、配置 Hadoop,然後再分發到其他兩臺機器上的方式來安裝集羣。

6. 解壓 Hadoop 目錄:

7. 配置 Hadoop JDK 路徑修改 hadoop-env.sh、mapred-env.sh、yarn-env.sh 文件中的 JDK 路徑:

8. 配置 core-site.xml

fs.defaultFS 爲 NameNode 的地址。

hadoop.tmp.dir 爲 hadoop 臨時目錄的地址,默認情況下,NameNode 和 DataNode 的數據文件都會存在這個目錄下的對應子目錄下。應該保證此目錄是存在的,如果不存在,先創建。

9. 配置 hdfs-site.xml

dfs.namenode.secondary.http-address 是指定 secondaryNameNode 的 http 訪問地址和端口號,因爲在規劃中,我們將 BigData03 規劃爲 SecondaryNameNode 服務器。

所以這裏設置爲:bigdata-senior03.chybinmy.com:50090

10. 配置 slaves

slaves 文件是指定 HDFS 上有哪些 DataNode 節點。

11. 配置 yarn-site.xml

根據規劃yarn.resourcemanager.hostname這個指定 resourcemanager 服務器指向bigdata-senior02.chybinmy.com

yarn.log-aggregation-enable是配置是否啓用日誌聚集功能。

yarn.log-aggregation.retain-seconds是配置聚集的日誌在 HDFS 上最多保存多長時間。

12. 配置 mapred-site.xml

從 mapred-site.xml.template 複製一個 mapred-site.xml 文件。

mapreduce.framework.name 設置 mapreduce 任務運行在 yarn 上。

mapreduce.jobhistory.address 是設置 mapreduce 的歷史服務器安裝在BigData01機器上。

mapreduce.jobhistory.webapp.address 是設置歷史服務器的web頁面地址和端口號。

二十八、設置 SSH 無密碼登錄

Hadoop 集羣中的各個機器間會相互地通過 SSH 訪問,每次訪問都輸入密碼是不現實的,所以要配置各個機器間的

SSH 是無密碼登錄的。

1. 在 BigData01 上生成公鑰

 

一路回車,都設置爲默認值,然後再當前用戶的Home目錄下的.ssh目錄中會生成公鑰文件(id_rsa.pub)和私鑰文件(id_rsa)

2. 分發公鑰

3. 設置 BigData02、BigData03 到其他機器的無密鑰登錄

同樣的在 BigData02、BigData03 上生成公鑰和私鑰後,將公鑰分發到三臺機器上。

二十九、分發 Hadoop 文件

  1. 首先在其他兩臺機器上創建存放 Hadoop 的目錄

2. 通過 Scp 分發

Hadoop 根目錄下的 share/doc 目錄是存放的 hadoop 的文檔,文件相當大,建議在分發之前將這個目錄刪除掉,可以節省硬盤空間並能提高分發的速度。

doc目錄大小有1.6G。

三十、格式 NameNode

在 NameNode 機器上執行格式化:

 

注意:

如果需要重新格式化 NameNode,需要先將原來 NameNode 和 DataNode 下的文件全部刪除,不然會報錯,NameNode 和 DataNode 所在目錄是在core-site.xmlhadoop.tmp.dirdfs.namenode.name.dirdfs.datanode.data.dir屬性配置的。

因爲每次格式化,默認是創建一個集羣ID,並寫入 NameNode 和 DataNode 的 VERSION 文件中(VERSION 文件所在目錄爲 dfs/name/current 和 dfs/data/current),重新格式化時,默認會生成一個新的集羣ID,如果不刪除原來的目錄,會導致 namenode 中的 VERSION 文件中是新的集羣 ID,而 DataNode 中是舊的集羣 ID,不一致時會報錯。

另一種方法是格式化時指定集羣ID參數,指定爲舊的集羣ID。

三十一、啓動集羣

  1. 啓動 HDFS

2. 啓動 YARN

在 BigData02 上啓動 ResourceManager:

3. 啓動日誌服務器

因爲我們規劃的是在 BigData03 服務器上運行 MapReduce 日誌服務,所以要在 BigData03 上啓動。

4. 查看 HDFS Web 頁面

http://bigdata-senior01.chybinmy.com:50070/

5. 查看 YARN Web 頁面

http://bigdata-senior02.chybinmy.com:8088/cluster

三十二、測試 Job

我們這裏用 hadoop 自帶的 wordcount 例子來在本地模式下測試跑mapreduce。

  1.  準備 mapreduce 輸入文件 wc.input

2. 在 HDFS 創建輸入目錄 input

3. 將 wc.inpu t上傳到 HDFS

4. 運行 hadoop 自帶的 mapreduce Demo

5. 查看輸出文件

 

第五部分:Hadoop HA 安裝

HA 的意思是 High Availability 高可用,指噹噹前工作中的機器宕機後,會自動處理這個異常,並將工作無縫地轉移到其他備用機器上去,以來保證服務的高可用。

HA 方式安裝部署纔是最常見的生產環境上的安裝部署方式。Hadoop HA 是 Hadoop 2.x 中新添加的特性,包括 NameNode HA 和 ResourceManager HA。

因爲 DataNode 和 NodeManager 本身就是被設計爲高可用的,所以不用對他們進行特殊的高可用處理。

第九步  時間服務器搭建

Hadoop 對集羣中各個機器的時間同步要求比較高,要求各個機器的系統時間不能相差太多,不然會造成很多問題。

可以配置集羣中各個機器和互聯網的時間服務器進行時間同步,但是在實際生產環境中,集羣中大部分服務器是不能連接外網的,這時候可以在內網搭建一個自己的時間服務器(NTP服務器),集羣的各個機器與這個時間服務器進行時間同步。

三十三、配置NTP服務器

我們選擇第三臺機器(bigdata-senior03.chybinmy.com)爲NTF服務器,其他機器和這臺機器進行同步。

  1. 檢查 ntp 服務是否已經安裝

顯示已經安裝過了ntp程序,其中ntpdate-4.2.6p5-1.el6.centos.x86_64 是用來和某臺服務器進行同步的,ntp-4.2.6p5-1.el6.centos.x86_64是用來提供時間同步服務的。

2. 修改配置文件 ntp.conf

啓用 restrice,修改網段

restrict 192.168.100.0 mask 255.255.255.0 nomodify notrap
將這行的註釋去掉,並且將網段改爲集羣的網段,我們這裏是100網段。

註釋掉 server 域名配置

是時間服務器的域名,這裏不需要連接互聯網,所以將他們註釋掉。

修改

server 127.127.1.0

fudge 127.127.1.0 stratum 10

3. 修改配置文件 ntpd

添加一行配置:SYNC_CLOCK=yes

4. 啓動 ntp 服務

這樣每次機器啓動時,ntp 服務都會自動啓動。

三十四、配置其他機器的同步

切換到 root 用戶進行配置通過 contab 進行定時同步:

三十五、 測試同步是否有效

  1. 查看目前三臺機器的時間

2. 修改 bigdata-senior01上的時間

將時間改爲一個以前的時間:

等10分鐘,看是否可以實現自動同步,將 bigdata-senior01 上的時間修改爲和 bigdata-senior03 上的一致。

3. 查看是否自動同步時間

可以看到 bigdata-senior01 上的時間已經實現自動同步了。

第十步  Zookeeper 分佈式機器部署

三十六、zookeeper 說明

Zookeeper 在Hadoop 集羣中的作用。

Zookeeper是分佈式管理協作框架,Zookeeper集羣用來保證Hadoop集羣的高可用,(高可用的含義是:集羣中就算有一部分服務器宕機,也能保證正常地對外提供服務。)

Zookeeper 保證高可用的原理。

Zookeeper 集羣能夠保證 NamaNode 服務高可用的原理是:Hadoop 集羣中有兩個 NameNode 服務,兩個NaameNode都定時地給 Zookeeper 發送心跳,告訴 Zookeeper 我還活着,可以提供服務,單某一個時間只有一個是 Action 狀態,另外一個是 Standby 狀態,一旦 Zookeeper 檢測不到 Action NameNode 發送來的心跳後,就切換到 Standby 狀態的 NameNode 上,將它設置爲 Action 狀態,所以集羣中總有一個可用的 NameNode,達到了 NameNode 的高可用目的。

Zookeeper 的選舉機制。

Zookeeper 集羣也能保證自身的高可用,保證自身高可用的原理是,Zookeeper 集羣中的各個機器分爲 Leader 和 Follower 兩個角色,寫入數據時,要先寫入Leader,Leader 同意寫入後,再通知 Follower 寫入。客戶端讀取數時,因爲數據都是一樣的,可以從任意一臺機器上讀取數據。

這裏 Leader 角色就存在單點故障的隱患,高可用就是解決單點故障隱患的。

Zookeeper 從機制上解決了 Leader 的單點故障問題,Leader 是哪一臺機器是不固定的,Leader 是選舉出來的。

選舉流程是,集羣中任何一臺機器發現集羣中沒有 Leader 時,就推薦自己爲 Leader,其他機器來同意,當超過一半數的機器同意它爲 Leader 時,選舉結束,所以 Zookeeper 集羣中的機器數據必須是奇數。

這樣就算當 Leader 機器宕機後,會很快選舉出新的 Leader,保證了 Zookeeper 集羣本身的高可用。

寫入高可用。

集羣中的寫入操作都是先通知 Leader,Leader 再通知 Follower 寫入,實際上當超過一半的機器寫入成功後,就認爲寫入成功了,所以就算有些機器宕機,寫入也是成功的。

讀取高可用。

zookeeperk 客戶端讀取數據時,可以讀取集羣中的任何一個機器。所以部分機器的宕機並不影響讀取。

zookeeper 服務器必須是奇數臺,因爲 zookeeper 有選舉制度,角色有:領導者、跟隨者、觀察者,選舉的目的是保證集羣中數據的一致性。

三十七、安裝 zookeeper

我們這裏在 BigData01、BigData02、BigData03 三臺機器上安裝 zookeeper 集羣。

1. 解壓安裝包

在 BigData01上安裝解壓 zookeeper 安裝包。

2. 修改配置

拷貝 conf 下的 zoo_sample.cfg 副本,改名爲 zoo.cfg。zoo.cfg 是 zookeeper 的配置文件:

dataDir 屬性設置 zookeeper 的數據文件存放的目錄:

dataDir=/opt/modules/zookeeper-3.4.8/data/zData

指定 zookeeper 集羣中各個機器的信息:

server 後面的數字範圍是1到255,所以一個 zookeeper 集羣最多可以有255個機器。

3. 創建 myid 文件

在 dataDir 所指定的目錄下創一個名爲 myid 的文件,文件內容爲 server 點後面的數字。

4. 分發到其他機器

5. 修改其他機器上的myid文件

6. 啓動 zookeeper

需要在各個機器上分別啓動 zookeeper。

三十八、zookeeper 命令

進入zookeeper Shell

在zookeeper根目錄下執行 bin/zkCli.sh進入zk shell模式。

zookeeper很像一個小型的文件系統,/是根目錄,下面的所有節點都叫zNode。

進入 zk shell 後輸入任意字符,可以列出所有的 zookeeper 命令

查詢 zNode 上的數據:get /zookeeper

創建一個 zNode : create /znode1  “demodata “

列出所有子 zNode:ls /

刪除 znode : rmr /znode1

退出 shell 模式:quit

第十一步  Hadoop 2.x HDFS HA 部署

三十九、HDFS HA原理

單 NameNode 的缺陷存在單點故障的問題,如果 NameNode 不可用,則會導致整個 HDFS 文件系統不可用。

所以需要設計高可用的 HDFS(Hadoop HA)來解決 NameNode 單點故障的問題。解決的方法是在 HDFS 集羣中設置多個 NameNode 節點。

但是一旦引入多個 NameNode,就有一些問題需要解決。

  • HDFS HA 需要保證的四個問題:

    • 保證 NameNode 內存中元數據數據一致,並保證編輯日誌文件的安全性。

    • 多個 NameNode 如何協作

    • 客戶端如何能正確地訪問到可用的那個 NameNode。

    • 怎麼保證任意時刻只能有一個 NameNode 處於對外服務狀態。

  • 解決方法

    • 對於保證 NameNode 元數據的一致性和編輯日誌的安全性,採用 Zookeeper 來存儲編輯日誌文件。

    • 兩個 NameNode 一個是 Active 狀態的,一個是 Standby 狀態的,一個時間點只能有一個 Active 狀態的
      NameNode 提供服務,兩個 NameNode 上存儲的元數據是實時同步的,當 Active 的 NameNode 出現問題時,通過 Zookeeper 實時切換到 Standby 的 NameNode 上,並將 Standby 改爲 Active 狀態。

    • 客戶端通過連接一個 Zookeeper 的代理來確定當時哪個 NameNode 處於服務狀態。

四十、HDFS HA 架構圖

  • HDFS HA 架構中有兩臺 NameNode 節點,一臺是處於活動狀態(Active)爲客戶端提供服務,另外一臺處於熱備份狀態(Standby)。

  • 元數據文件有兩個文件:fsimage 和 edits,備份元數據就是備份這兩個文件。JournalNode 用來實時從 Active NameNode 上拷貝 edits 文件,JournalNode 有三臺也是爲了實現高可用。

  • Standby NameNode 不對外提供元數據的訪問,它從 Active NameNode 上拷貝 fsimage 文件,從 JournalNode 上拷貝 edits 文件,然後負責合併 fsimage 和 edits 文件,相當於 SecondaryNameNode 的作用。

    最終目的是保證 Standby NameNode 上的元數據信息和 Active NameNode 上的元數據信息一致,以實現熱備份。

  • Zookeeper 來保證在 Active NameNode 失效時及時將 Standby NameNode 修改爲 Active 狀態。

  • ZKFC(失效檢測控制)是 Hadoop 裏的一個 Zookeeper 客戶端,在每一個 NameNode 節點上都啓動一個 ZKFC 進程,來監控 NameNode 的狀態,並把 NameNode 的狀態信息彙報給 Zookeeper 集羣,其實就是在 Zookeeper 上創建了一個 Znode 節點,節點裏保存了 NameNode 狀態信息。

    當 NameNode 失效後,ZKFC 檢測到報告給 Zookeeper,Zookeeper把對應的 Znode 刪除掉,Standby ZKFC 發現沒有 Active 狀態的 NameNode 時,就會用 shell 命令將自己監控的 NameNode 改爲 Active 狀態,並修改 Znode 上的數據。
    Znode 是個臨時的節點,臨時節點特徵是客戶端的連接斷了後就會把 znode 刪除,所以當 ZKFC 失效時,也會導致切換 NameNode。

  • DataNode 會將心跳信息和 Block 彙報信息同時發給兩臺 NameNode, DataNode 只接受 Active NameNode 發來的文件讀寫操作指令。

四十一、搭建HDFS HA 環境

1. 服務器角色規劃

在 bigdata01、bigdata02、bigdata03 三臺機器上分別創建目錄 /opt/modules/hadoopha/ 用來存放 Hadoop HA 環境。

2. 創建 HDFS HA 版本 Hadoop 程序目錄

3. 新解壓 Hadoop 2.5.0

4. 配置 Hadoop JDK 路徑

5. 配置 hdfs-site.xml

 

<?xml version="1.0" encoding="UTF-8"?><configuration>  <property>    <!-- 爲namenode集羣定義一個services name -->    <name>dfs.nameservices</name>    <value>ns1</value>  </property>  <property>    <!-- nameservice 包含哪些namenode,爲各個namenode起名 -->    <name>dfs.ha.namenodes.ns1</name>    <value>nn1,nn2</value>  </property>  <property>    <!--  名爲nn1的namenode 的rpc地址和端口號,rpc用來和datanode通訊 -->    <name>dfs.namenode.rpc-address.ns1.nn1</name>    <value>bigdata-senior01.chybinmy.com:8020</value>  </property>  <property>    <!-- 名爲nn2的namenode 的rpc地址和端口號,rpc用來和datanode通訊  -->    <name>dfs.namenode.rpc-address.ns1.nn2</name>    <value>bigdata-senior02.chybinmy.com:8020</value>  </property>  <property>    <!--名爲nn1的namenode 的http地址和端口號,web客戶端 -->    <name>dfs.namenode.http-address.ns1.nn1</name>    <value>bigdata-senior01.chybinmy.com:50070</value>  </property>  <property>    <!--名爲nn2的namenode 的http地址和端口號,web客戶端 -->    <name>dfs.namenode.http-address.ns1.nn2</name>    <value>bigdata-senior02.chybinmy.com:50070</value>  </property>  <property>    <!--  namenode間用於共享編輯日誌的journal節點列表 -->    <name>dfs.namenode.shared.edits.dir</name>    <value>qjournal://bigdata-senior01.chybinmy.com:8485;bigdata-senior02.chybinmy.com:8485;bigdata-senior03.chybinmy.com:8485/ns1</value>  </property>  <property>    <!--  journalnode 上用於存放edits日誌的目錄 -->    <name>dfs.journalnode.edits.dir</name>    <value>/opt/modules/hadoopha/hadoop-2.5.0/tmp/data/dfs/jn</value>  </property>  <property>    <!--  客戶端連接可用狀態的NameNode所用的代理類 -->    <name>dfs.client.failover.proxy.provider.ns1</name>    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>  </property>  <property>    <!--   -->    <name>dfs.ha.fencing.methods</name>    <value>sshfence</value>  </property>  <property>    <name>dfs.ha.fencing.ssh.private-key-files</name>    <value>/home/hadoop/.ssh/id_rsa</value>  </property></configuration>

6. 配置 core-site.xml

 

<?xml version="1.0" encoding="UTF-8"?><configuration>  <property>    <!--  hdfs 地址,ha中是連接到nameservice -->    <name>fs.defaultFS</name>    <value>hdfs://ns1</value>  </property>  <property>    <!--  -->    <name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoopha/hadoop-2.5.0/data/tmp</value>  </property></configuration>

hadoop.tmp.dir設置 hadoop 臨時目錄地址,默認時,NameNode 和 DataNode 的數據存在這個路徑下。

7. 配置 slaves 文件

8. 分發到其他節點

分發之前先將 share/doc 目錄刪除,這個目錄中是幫助文件,並且很大,可以刪除。

9. 啓動HDFS HA集羣

三臺機器分別啓動Journalnode。

jps 命令查看是否啓動。

10. 啓動Zookeeper

在三臺節點上啓動Zookeeper:

11. 格式化 NameNode

在第一臺上進行 NameNode 格式化:

在第二臺 NameNode 上:

12. 啓動 NameNode

在第一臺、第二臺上啓動 NameNode:

查看 HDFS Web 頁面,此時兩個 NameNode 都是 standby 狀態。

切換第一臺爲 active 狀態:

可以添加上 forcemanual 參數,強制將一個 NameNode 轉換爲 active 狀態。

此時從 web 頁面就看到第一臺已經是 active 狀態了。

13. 配置故障自動轉移

利用 zookeeper 集羣實現故障自動轉移,在配置故障自動轉移之前,要先關閉集羣,不能在 HDFS運行期間進行配置。

關閉 NameNode、DataNode、JournalNode、zookeeper

修改 hdfs-site.xml

修改 core-site.xml

將 hdfs-site.xml 和 core-site.xml 分發到其他機器

啓動 zookeeper

三臺機器啓動 zookeeper

創建一個 zNode

在 Zookeeper 上創建一個存儲 namenode 相關的節點。

14. 啓動 HDFS、JournalNode、zkfc

啓動 NameNode、DataNode、JournalNode、zkfc

zkfc只針對 NameNode 監聽。

四十二、測試 HDFS HA

1. 測試故障自動轉移和數據是否共享

在 nn1 上上傳文件

目前 bigdata-senior01節點上的 NameNode 是 Active 狀態的。

將 nn1 上的 NodeNode 進程殺掉


 

[hadoop@bigdata-senior01 hadoop-2.5.0]$ kill -9 3364

nn1 上的 namenode 已經無法訪問了。

查看 nn2 是否是 Active 狀態

在nn2上查看是否看見文件

經以上驗證,已經實現了 nn1 和 nn2 之間的文件同步和故障自動轉移。

第十二步  Hadoop 2.x YARN HA 部署

四十三、YARN HA原理

Hadoop2.4 版本之前,ResourceManager 也存在單點故障的問題,也需要實現HA來保證 ResourceManger 的高可也用性。

ResouceManager 從記錄着當前集羣的資源分配情況和 JOB 的運行狀態,YRAN HA 利用 Zookeeper 等共享存儲介質來存儲這些信息來達到高可用。另外利用 Zookeeper 來實現 ResourceManager 自動故障轉移。

  • MasterHADaemon:控制RM的 Master的啓動和停止,和RM運行在一個進程中,可以接收外部RPC命令。

  • 共享存儲:Active Master將信息寫入共享存儲,Standby Master讀取共享存儲信息以保持和Active Master同步。

  • ZKFailoverController:基於 Zookeeper 實現的切換控制器,由 ActiveStandbyElector 和 HealthMonitor 組成,ActiveStandbyElector 負責與 Zookeeper 交互,判斷所管理的 Master 是進入 Active 還是 Standby;HealthMonitor負責監控Master的活動健康情況,是個監視器。

  • Zookeeper:核心功能是維護一把全局鎖控制整個集羣上只有一個 Active的ResourceManager。

四十四、搭建 YARN HA 環境

1. 服務器角色規劃

2. 修改配置文件yarn-site.xml

 

<?xml version="1.0" encoding="UTF-8"?><configuration>  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </property>  <property>    <name>yarn.log-aggregation-enable</name>    <value>true</value>  </property>  <property>    <name>yarn.log-aggregation.retain-seconds</name>    <value>106800</value>  </property>  <property>    <!--  啓用resourcemanager的ha功能 -->    <name>yarn.resourcemanager.ha.enabled</name>    <value>true</value>  </property>  <property>    <!--  爲resourcemanage ha 集羣起個id -->    <name>yarn.resourcemanager.cluster-id</name>    <value>yarn-cluster</value>  </property>  <property>    <!--  指定resourcemanger ha 有哪些節點名 -->    <name>yarn.resourcemanager.ha.rm-ids</name>    <value>rm12,rm13</value>  </property>  <property>    <!--  指定第一個節點的所在機器 -->    <name>yarn.resourcemanager.hostname.rm12</name>    <value>bigdata-senior02.chybinmy.com</value>  </property>  <property>    <!--  指定第二個節點所在機器 -->    <name>yarn.resourcemanager.hostname.rm13</name>    <value>bigdata-senior03.chybinmy.com</value>  </property>  <property>    <!--  指定resourcemanger ha 所用的zookeeper 節點 -->    <name>yarn.resourcemanager.zk-address</name>    <value>bigdata-senior01.chybinmy.com:2181,bigdata-senior02.chybinmy.com:2181,bigdata-senior03.chybinmy.com:2181</value>  </property>  <property>    <!--  -->    <name>yarn.resourcemanager.recovery.enabled</name>    <value>true</value>  </property>  <property>    <!--  -->    <name>yarn.resourcemanager.store.class</name>    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>  </property></configuration>

3. 分發到其他機器

4. 啓動

在 bigdata-senior01 上啓動 yarn:

在 bigdata-senior02、bigdata-senior03 上啓動 resourcemanager:

啓動後各個節點的進程。

Web 客戶端訪問 bigdata02 機器上的 resourcemanager 正常,它是 active 狀態的。

http://bigdata-senior02.chybinmy.com:8088/cluster

訪問另外一個 resourcemanager,因爲他是 standby,會自動跳轉到 active 的resourcemanager。

http://bigdata-senior03.chybinmy.com:8088/cluster

四十五、測試 YARN HA

5. 運行一個mapreduce job

6. 在 job 運行過程中,將 Active 狀態的 resourcemanager 進程殺掉。

7. 觀察另外一個 resourcemanager 是否可以自動接替。

bigdata02 的 resourcemanage Web 客戶端已經不能訪問,bigdata03 的 resourcemanage 已經自動變爲active狀態。

8. 觀察 job 是否可以順利完成。

而 mapreduce job 也能順利完成,沒有因爲 resourcemanager 的意外故障而影響運行。

經過以上測試,已經驗證 YARN HA 已經搭建成功。

第十三步  HDFS Federation 架構部署

四十六、HDFS Federation 的使用原因

1. 單個 NameNode 節點的侷限性

命名空間的限制。

NameNode 上存儲着整個 HDFS 上的文件的元數據,NameNode 是部署在一臺機器上的,因爲單個機器硬件的限制,必然會限制 NameNode 所能管理的文件個數,制約了數據量的增長。

數據隔離問題。

整個 HDFS 上的文件都由一個 NameNode 管理,所以一個程序很有可能會影響到整個 HDFS 上的程序,並且權限控制比較複雜。

性能瓶頸。

單個NameNode 時 HDFS文件系統的吞吐量受限於單個 NameNode 的吞吐量。因爲 NameNode 是個 JVM 進程,JVM 進程所佔用的內存很大時,性能會下降很多。

2. HDFS Federation介紹

HDFS Federation 是可以在 Hadoop 集羣中設置多個 NameNode,不同於 HA 中多個 NameNode 是完全一樣的,是多個備份,Federation 中的多個 NameNode 是不同的,可以理解爲將一個 NameNode 切分爲了多個 NameNode,每一個 NameNode 只負責管理一部分數據。
HDFS Federation 中的多個 NameNode 共用 DataNode。

四十七、HDFS Federation 的架構圖

四十八、HDFS Federation搭建

1. 服務器角色規劃

2. 創建HDFS Federation 版本Hadoop程序目錄

在bigdata01上創建目錄/opt/modules/hadoopfederation /用來存放Hadoop Federation環境。

3. 新解壓 Hadoop 2.5.0

4. 配置 Hadoop JDK 路徑

修改 hadoop-env.sh、mapred-env.sh、yarn-env.sh 文件中的 JDK 路徑。

export JAVA_HOME=”/opt/modules/jdk1.7.0_67”

5. 配置hdfs-site.xml

 

<configuration><property><!—配置三臺NameNode -->    <name>dfs.nameservices</name>    <value>ns1,ns2,ns3</value>  </property>  <property><!—第一臺NameNode的機器名和rpc端口,指定了NameNode和DataNode通訊用的端口號 -->    <name>dfs.namenode.rpc-address.ns1</name>    <value>bigdata-senior01.chybinmy.com:8020</value>  </property>   <property><!—第一臺NameNode的機器名和rpc端口,備用端口號 -->    <name>dfs.namenode.serviceerpc-address.ns1</name>    <value>bigdata-senior01.chybinmy.com:8022</value>  </property>  <property><!—第一臺NameNode的http頁面地址和端口號 -->    <name>dfs.namenode.http-address.ns1</name>    <value>bigdata-senior01.chybinmy.com:50070</value>  </property><property><!—第一臺NameNode的https頁面地址和端口號 -->    <name>dfs.namenode.https-address.ns1</name>    <value>bigdata-senior01.chybinmy.com:50470</value>  </property>  <property>    <name>dfs.namenode.rpc-address.ns2</name>    <value>bigdata-senior02.chybinmy.com:8020</value>  </property>   <property>    <name>dfs.namenode.serviceerpc-address.ns2</name>    <value>bigdata-senior02.chybinmy.com:8022</value>  </property>  <property>    <name>dfs.namenode.http-address.ns2</name>    <value>bigdata-senior02.chybinmy.com:50070</value>  </property>    <property>    <name>dfs.namenode.https-address.ns2</name>    <value>bigdata-senior02.chybinmy.com:50470</value>  </property>  <property>    <name>dfs.namenode.rpc-address.ns3</name>    <value>bigdata-senior03.chybinmy.com:8020</value>  </property>   <property>    <name>dfs.namenode.serviceerpc-address.ns3</name>    <value>bigdata-senior03.chybinmy.com:8022</value>  </property>  <property>    <name>dfs.namenode.http-address.ns3</name>    <value>bigdata-senior03.chybinmy.com:50070</value>  </property>    <property>    <name>dfs.namenode.https-address.ns3</name>    <value>bigdata-senior03.chybinmy.com:50470</value>  </property></configuration>

6. 配置 core-site.xml

 

<configuration><property>    <name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoopha/hadoop-2.5.0/data/tmp</value></property></configuration>

hadoop.tmp.dir 設置 hadoop 臨時目錄地址,默認時,NameNode 和 DataNode 的數據存在這個路徑下。

7. 配置 slaves 文件

8. 配置 yarn-site.xml


 

<configuration><property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value> </property>      <property>    <name>yarn.resourcemanager.hostname</name>    <value>bigdata-senior02.chybinmy.com</value> </property>      <property>    <name>yarn.log-aggregation-enable</name>    <value>true</value> </property>      <property>    <name>yarn.log-aggregation.retain-seconds</name>    <value>106800</value> </property>     </configuration>

9. 分發到其他節點

分發之前先將 share/doc 目錄刪除,這個目錄中是幫助文件,並且很大,可以刪除。

10. 格式化 NameNode

在第一臺上進行 NameNode 格式化。

這裏一定要指定一個集羣 ID,使得多個 NameNode 的集羣 ID 是一樣的,因爲這三個 NameNode 在同一個集羣中,這裏集羣 ID 爲 hadoop-federation-clusterId。

在第二臺 NameNode 上。

在第三臺 NameNode 上。

11. 啓動 NameNode

在第一臺、第二臺、第三臺機器上啓動 NameNode:

啓動後,用 jps 命令查看是否已經啓動成功。

查看 HDFS Web 頁面,此時三個 NameNode 都是 standby 狀態。

12. 啓動 DataNode

啓動後,用 jps 命令確認 DataNode 進程已經啓動成功。

四十九、測試HDFS Federation

1. 修改 core-site.xml

在bigdata-senior01機器上,修改core-site.xml文件,指定連接的NameNode是第一臺NameNode。

[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/core-site.xml

 

<configuration>  <property>     <name>fs.defaultFS</name>     <value>hdfs://bigdata-senior01.chybinmy.com:8020</value>  </property><property>    <name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoopfederation/hadoop-2.5.0/data/tmp</value></property></configuration>

2. 在 bigdate-senior01 上傳一個文件到 HDFS

3. 查看 HDFS 文件

可以看到,剛纔的文件只上傳到了 bigdate-senior01 機器上的 NameNode 上了,並沒有上傳到其他的 NameNode 上去。

這樣,在 HDFS 的客戶端,可以指定要上傳到哪個 NameNode 上,從而來達到了劃分 NameNode 的目的。

後記

這篇文章的操作步驟並不是工作中標準的操作流程,如果在成百上千的機器全部這樣安裝會被累死,希望讀者可以通過文章中一步步地安裝,從而初步瞭解到 Hadoop 的組成部分,協助過程等,這對於 Hadoop 的深入使用有很大的幫助。

文章轉載自:GitChat技術雜談



作者:Yespon
鏈接:https://www.jianshu.com/p/0d4a365ef350
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章