大數據之起步搭開發環境

上個星期電腦被我搞壞了之後很多軟件就沒再安裝了,昨天看到阿里宣傳的大數據比賽,於是連夜開始重新安裝數據挖掘的各種軟件,下面就記錄一下,也算是記下我比賽的進程吧:

系統:3.9.10-100.fc17.i686.PAE

包管理軟件爲Yum,有了Yum,再也不擔心軟件安裝的依賴性問題,首先安裝Java,由於之前安裝Textlive中依賴Java,所以這裏就沒必要再安裝了,有了Java後就安裝Mahout,http://mirrors.cnnic.cn/apache/mahout/0.9/ ,下載mahout-distribution-0.9-src.tar.gz ,由於Mahout需要Maven,所以接着安裝Maven, 執行yum install maven。集成開發平臺使用eclipse,eclipse的安裝也使用Yum,執行yum install eclipse,解壓縮mahout,將解壓縮的文件移到eclipse的工作目錄/home/XXX/workspace/,進入解壓縮的文件夾,打開Readme.txt,根據裏面的提示依次執行:

mvn -DskipTests clean install (需要一段時間)

mvn eclipse\:eclipse

安裝完成後就可以將Mahout導入到eclipse中,這需要m2eclipse的幫助,在eclipae菜單欄中選擇幫助—>安裝新軟件,然後輸入me2的安裝地址http://download.eclipse.org/technology/m2e/releases 。接着從eclipse->file->import->existing project into workspace,mahout-distribution-0.9目錄導入,即可。有時這裏會出現錯誤,如果出現路徑問題就是由於某些依賴的jar包沒有添加進來,可以通過項目—>屬性—>添加包來新增jar包來解決。

下面就是Hadoop的安裝了,

創建hadoop用戶組:groupadd hadoop
創建hadoop用戶並添加到hadoop組裏:  useradd -g hadoop hadoop
爲hadoop設置密碼:passwd hadoop,enter後輸入密碼即可。
爲hadoop用戶添加root權限,編輯/etc/sudoers:添加hadoop   ALL=(ALL:ALL)  ALL
JDK需要安裝,fedora17中直接使用yum即可。
然後爲hadoop,http://mirror.bit.edu.cn/apache/hadoop/common/stable2/,下載hadoop-2.2.0.tar.gz ,解壓縮。

首先建立ssh無密碼登錄
首先要轉換成root用戶,執行su,輸入root密碼即可。
創建ssh-key,與GigHub一樣,採用rsa方式ssh-keygen -t rsa,然後一路回車就行了,然後, 進入~/.ssh/目錄下將公鑰另存到authorized_keys中,即執行cat id_rsa.pub >    authorized_keys,這樣就可以了,可以執行ssh localhost驗證一下,無需密碼即可登陸。

下面就是給上面解壓的Hadoop文件配置了。

首先配置Hadoop環境變量,打開/etc/profile,添加

export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存後source一下就可以了。

接下來就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各種文件了,首先是hadoop-env.sh,找到JAVA_HOME,在上面一行添加JAVA_HOME=/usr/bin/java,即自己的JDK路徑。

接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四個文件。

core-site.xml如下

   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>

   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/lmdyyh/hadoop/tmp</value>
   </property>
hdfs-site.xml

   <property>
      <name>dfs.namenode.name.dir</name>
      <value>/home/lmdyyh/hadoop/namenode</value>
   </property>
 	
   <property>
      <name>dfs.datanode.data.dir</name>
      <value>/home/lmdyyh/hadoop/datanode</value>
mapred-site.xml.template

    <name>mapreduce.framework.name</name>
    <value>yarn</value>

yarn暫時就不用配置了。

下面切換到Hadoop的安裝目錄,啓動Hadoop,首先格式化hdfs

bin/hdfs namenode -format

啓動namenode和datanode

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

啓動Manager管理,

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

執行jps,如果輸出如下

4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager

則說明都啓動成功了。看看Hadoop管理頁面,http://127.0.0.1:8088/ 和namenode的節點信息http://127.0.0.1:50070

以上關閉的命令均是將start替換爲stop即可。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章