Hadoop的安裝與配置

    首先我們需要到Apache官網下載我們需要的Hadoop版本,Apache產品官網是:http://archive.apache.org/dist/ 如下圖所示,我們可以看到有很多種產品,這裏我們需要的是Hadoop因此我們點擊hadoop。

    點擊hadoop後會進入如下圖所示的頁面,我們點擊core

    點擊core後我們會進入如下圖所示的界面,我學習用的是Hadoop2.2.0版本,當然大家也可以使用最新的穩定版本(點擊stable)

    我們點擊hadoop-2.2.0後會進入如下圖所示的頁面,我們點擊hadoop-2.2.0.tar.gz進行下載。

    下載完hadoop-2.2.0.tar.gz後,我們利用FileZilla工具將該安裝包上傳到root目錄下(關於FileZilla的使用如果不會使用的話可以參考第二節課JDK的安裝,網址是:http://blog.csdn.net/u012453843/article/details/52422736) ,如下圖所示

    接下來我們在root目錄下創建一個itcast目錄,命令是mkdir /itcast,如下圖所示

    接下來我們解壓hadoop-2.2.0.tar.gz,我們使用的命令是tar -zxvf hadoop-2.2.0.tar.gz -C /itcast/,這裏我們說明一下這條命令的含義,tar的意思是打包和解包,-zxvf中的z是gzip類型的包,x是釋放的意思(如果是c的話意思是創建),v代表解壓過程的詳情,f代表file的意思。解壓完後我們進入itcast目錄,命令:cd /itcast/ 按回車,然後我們輸入ls命令查看目錄下的文件,如下圖所示,我們可以看到hadoop-2.2.0文件夾,說明加壓成功。

    我們進入到hadoop-2.2.0文件夾,命令是:cd hadoop-2.2.0,按回車,接着我們用ls命令來查看hadoop-2.2.0下面有哪些文件夾,如下圖所示,其中的bin文件夾中存放的是一些可執行的腳本(我們用到的比較多的是hadoop、hdfs、yarn),include存放的是本地庫的一些頭文件,sbin裏面存放的是關於啓動和停止相關的內容(如start-all.shstart-dfs.shstop-all.sh、stop-dfs.sh等),etc存放的是hadoop的配置文件,這個etc跟linux根目錄下的etc是不一樣的,lib存放的是本地庫的文件其所依賴的jar包在share目錄下。

    接下來我們開始修改5個配置文件了,首先我們進入hadoop的配置文件目錄(如下圖所示),我們可以看到有很多配置文件。

     我們開始修改第一個配置文件hadoop-env.sh,我們輸入命令vim hadoop-env.sh,按回車,我們可以看到該文件的內容,如下圖所示,其中有一行是配置JAVA環境變量的,初始值默認是${JAVA_HOME},我們需要把它改成具體的jdk所在的目錄。

    我們在修改文件的時候如果不知道Jdk文件的所在的位置,我們可以在當前頁面進行查詢(如果你當前不是出於INSERT狀態,那麼直接輸入: echo $JAVA_HOME並按回車),如果當前出於INSERT狀態,那麼先按ESC鍵,然後輸入: echo $JAVA_HOME並按回車,就會在頁面底部出現Jdk所在的位置。

我們CTRL+C,複製一下內容。

    接下來我們按I鍵進入INSERT編輯模式,把剛纔查詢出的/usr/java/jdk1.7.0_80替換掉原來的${JAVA_HOME},如下圖所示,接下來我們按ESC鍵退出編輯模式,然後輸入:wq保存並退出編輯該文件。

    配置完了第一個文件,我們來配置第二個文件core-stie.xml,添加的內容在<configuration></configuration>當中,當我們輸入目錄時如果不太確定,依然可以採取如上面說的那樣,在非編輯狀態輸入: cd /itcast/hadoop然後按tab鍵,會自動補全成/itcast/hadoop-2.2.0/,我們把這個目錄粘到第二個property的value裏面並增加一級目錄tmp就是我們下圖看到的/itcast/hadoop-2.2.0/tmp。需要說明的是,第一個property配置的是HDFS的NameNode的地址,第二個property配置的內容用來指定Hadoop運行時產生的文件的存放目錄。添加完後按ESC鍵退出編輯模式,輸入:wq保存並退出當前配置頁面。

    接下來我們配置第三個配置文件,該配置文件用來指定HDFS保存數據副本的數量(現在是僞分佈式,所以數量是1,將來的集羣副本數量默認是3)

    輸入完畢後按ESC鍵退出編輯模式,然後輸入:wq保存並退出當前文件。

    接下來我們配置第四個文件,即:mapred-site.xml,我們在hadoop目錄下發現文件列表中只有mapred-site.xml.template而沒有mapred-site.xml,因此我們需要先把mapred-site.xml.template的後綴.template去掉(即重命名)

    重命名輸入命令:mv mapred-site.xml.template mapred-site.xml並按回車即可完成修改,修改完後我們查看文件列表發現mapred-site.xml.template已經改成了mapred-site.xml。

    修改完文件名之後,我們開始修改mapred-site.xml,輸入命令:vim mapred-site.xml並按回車會進入編輯頁面,我們在<configuration></configuration>當中添加如下圖所示的配置內容。該配置告訴Hadoop以後mapreduce(MR)運行在YARN上


 

    接下來我們來修改第5個配置文件 即:yarn-site.xml,輸入命令vim yarn-site.xml並按回車進入該文件並按I鍵進入編輯模式,添加如下圖所示的配置。需要說明的是,第一個property配置的內容是NodeManager獲取數據的方式shuffle,第二個property配置的內容是指定YARN的ResourceManager的地址。編輯完後按回車鍵退出編輯模式,並輸入:wq保存並退出該文件。

    至此,我們終於修改完五個配置文件了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章