大數據之起步搭開發環境

原創

2018-08-24 07:19

上個星期電腦被我搞壞了之後很多軟件就沒再安裝了，昨天看到阿里宣傳的大數據比賽，於是連夜開始重新安裝數據挖掘的各種軟件，下面就記錄一下，也算是記下我比賽的進程吧：

系統:3.9.10-100.fc17.i686.PAE

包管理軟件爲Yum，有了Yum，再也不擔心軟件安裝的依賴性問題，首先安裝Java，由於之前安裝Textlive中依賴Java，所以這裏就沒必要再安裝了，有了Java後就安裝Mahout，http://mirrors.cnnic.cn/apache/mahout/0.9/ ，下載mahout-distribution-0.9-src.tar.gz ，由於Mahout需要Maven，所以接着安裝Maven, 執行yum install maven。集成開發平臺使用eclipse，eclipse的安裝也使用Yum,執行yum install eclipse，解壓縮mahout，將解壓縮的文件移到eclipse的工作目錄/home/XXX/workspace/,進入解壓縮的文件夾，打開Readme.txt，根據裏面的提示依次執行：

mvn -DskipTests clean install （需要一段時間）

mvn eclipse\:eclipse

安裝完成後就可以將Mahout導入到eclipse中，這需要m2eclipse的幫助，在eclipae菜單欄中選擇幫助—>安裝新軟件，然後輸入me2的安裝地址http://download.eclipse.org/technology/m2e/releases 。接着從eclipse->file->import->existing project into workspace，mahout-distribution-0.9目錄導入，即可。有時這裏會出現錯誤，如果出現路徑問題就是由於某些依賴的jar包沒有添加進來，可以通過項目—>屬性—>添加包來新增jar包來解決。

下面就是Hadoop的安裝了，

創建hadoop用戶組：groupadd hadoop
創建hadoop用戶並添加到hadoop組裏： useradd -g hadoop hadoop
爲hadoop設置密碼：passwd hadoop,enter後輸入密碼即可。
爲hadoop用戶添加root權限，編輯/etc/sudoers：添加hadoop ALL=(ALL:ALL) ALL
JDK需要安裝，fedora17中直接使用yum即可。
然後爲hadoop，http://mirror.bit.edu.cn/apache/hadoop/common/stable2/，下載hadoop-2.2.0.tar.gz ，解壓縮。

首先建立ssh無密碼登錄
首先要轉換成root用戶，執行su，輸入root密碼即可。
創建ssh-key,與GigHub一樣，採用rsa方式ssh-keygen -t rsa，然後一路回車就行了，然後，進入~/.ssh/目錄下將公鑰另存到authorized_keys中，即執行cat id_rsa.pub > authorized_keys，這樣就可以了，可以執行ssh localhost驗證一下，無需密碼即可登陸。

下面就是給上面解壓的Hadoop文件配置了。

首先配置Hadoop環境變量，打開/etc/profile，添加

export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存後source一下就可以了。

接下來就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各種文件了，首先是hadoop-env.sh，找到JAVA_HOME，在上面一行添加JAVA_HOME=/usr/bin/java，即自己的JDK路徑。

接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四個文件。

core-site.xml如下

   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>

   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/lmdyyh/hadoop/tmp</value>
   </property>

hdfs-site.xml

   <property>
      <name>dfs.namenode.name.dir</name>
      <value>/home/lmdyyh/hadoop/namenode</value>
   </property>
 	
   <property>
      <name>dfs.datanode.data.dir</name>
      <value>/home/lmdyyh/hadoop/datanode</value>

mapred-site.xml.template

    <name>mapreduce.framework.name</name>
    <value>yarn</value>

yarn暫時就不用配置了。

下面切換到Hadoop的安裝目錄，啓動Hadoop，首先格式化hdfs

bin/hdfs namenode -format

啓動namenode和datanode

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

啓動Manager管理，

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

執行jps，如果輸出如下

4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager

則說明都啓動成功了。看看Hadoop管理頁面，http://127.0.0.1:8088/ 和namenode的節點信息http://127.0.0.1:50070。

以上關閉的命令均是將start替換爲stop即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據之起步搭開發環境

git命令的基本使用方法

/lib/libncurses.so: undefined reference to `__fdelt_chk@GLIBC_2.15' collect2: ld

C++編寫的linux shell上可運行的貪喫蛇遊戲

Linux下用Libxml2讀寫XML文檔

系統重裝後如何重新pull自己GitHub上的倉儲

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結