hadoop集羣搭建

計算機集羣是一種計算機系統, 它通過一組鬆散集成的計算機軟件和/或硬件連接起來高度緊密地協作完成計算工作。
集羣系統中的單個計算機通常稱爲節點,通常通過局域網連接。
集羣技術的特點:
1.通過多臺計算機完成同一個工作。達到更高的效率
2.兩機或多機內容、工作過程等完全一樣。如果一臺死機,另一臺可以起作用。

1.hadoop的分佈式安裝過程
    1.1 分佈結構    主節點(1個,是hadoop0):NameNode、JobTracker、SecondaryNameNode
                    從節點(2個,是hadoop1、hadoop2):DataNode、TaskTracker
    1.2 各節點重新產生ssh加密文件
            ssh-keygen -t rsa
            cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
    1.3 編輯各個節點的/etc/hosts,在該文件中含有所有節點的ip與hostname的映射信息
    1.4 兩兩節點之間的SSH免密碼登陸
            ssh-copy-id -i  hadoop20
            scp /root/.ssh/authorized_keys   hadoop21:/root/.ssh/
    1.5 把hadoop0的hadoop目錄下的logs和tmp刪除
    1.6 把hadoop0中的jdk、hadoop文件夾複製到hadoop1和hadoop2節點
            scp  -r /usr/local/jdk   hadoop1:/usr/local/
    1.7 把hadoop0的/etc/profile複製到hadoop1和hadoop2節點,在目標節點中執行source  /etc/profile
    1.8 編輯hadoop0的配置文件slaves,改爲從節點的hostname,分別是hadoop1和hadoop2 (DataNode  Tracker)
        編輯hadoop0的配置文件masters,改爲從節點的hostname,分別是hadoop1   (SecondaryNameNode)
    1.9 格式化,在hadoop0節點執行hadoop namenode -format
    1.10 啓動,在hadoop0節點執行start-all.sh
    ****注意:對於配置文件core-site.xml和mapred-site.xml在所有節點中都是相同的內容。

    

   終端查看集羣狀態:

#hadoopdfsadmin -report


2.動態的增加一個hadoop節點
    2.1 配置新節點的環境
    2.2 把新節點的hostname配置到主節點的slaves文件中
    2.3 在新節點,啓動進程
            hadoop-daemon.sh start datanode
            hadoop-daemon.sh start tasktracker
    2.4 在主節點執行腳本 hadoop dfsadmin -refreshNodes



在分佈式文件系統啓動的時候,開始的時候會有安全模式,當分佈式文件系統處於安全模式的情況下,文件系統中的內容不允許修改也不允許刪除,直到安全模式結束。安全模式主要是爲了系統啓動的時候檢查各個DataNode上數據塊的有效性,同時根據策略必要的複製或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中,系統啓動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示,只需要等待一會兒即可。
NameNode在啓動的時候首先進入安全模式,如果datanode丟失的block達到一定的比例(1- dfs.safemode.threshold.pct),則系統會一直處於安全模式狀態即只讀狀態。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS啓動的時候,如果DataNode上報的block個數達到了 元數據記錄的block個數的0.999倍纔可以離開安全模式,否則一直是這種只讀模式。如果設爲1HDFS永遠是處於SafeMode
hadoopdfsadmin -safemode enter | leave | get |wait

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章