hadoop 需要注意的地方

      1、 對於一個新手來說,簡單地進行hadoop安裝和wordcount demo程序的驗證都是件十分不易的事情。安裝完之後把環境變量寫進/etc/profile,並source一下。

      2、另外需要注意的是:

通過hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上傳測試文件到 firstTest裏。 firstTest 爲一個文件

若想上傳多個文件到一個目錄下,則需要創建一個目錄:hadoop dfs -mkdir thirdTest

然後可以上傳多個文件到這個目錄底下,然後將多個文件做爲輸入,來統計單詞個數

假如有三個文件夾在/tmp/目錄下,如下面所示爲test1.txt、test2.txt、test.txt

root@cloud1:/tmp# ls
hadoop-root                        Jetty_0_0_0_0_50060_task____.2vcltf
hadoop-root-datanode.pid           Jetty_0_0_0_0_50070_hdfs____w2cu08
hadoop-root-jobtracker.pid         Jetty_0_0_0_0_50075_datanode____hwtdwq
hadoop-root-namenode.pid           Jetty_0_0_0_0_50090_secondary____y6aanv
hadoop-root-secondarynamenode.pid  test1.txt
hadoop-root-tasktracker.pid                 test2.txt
hsperfdata_root                                     test.txt
Jetty_0_0_0_0_50030_job____yn7qmk


上傳三個測試文件到thirdTest目錄下

hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest

除此之外,需要注意,如果你上次使用過firstTest文件。這次又把測試文件的內容上傳到這個文件夾時就會出現提示,文件夾已經存在,這時就需要重新使用別的文件名,比如secondTest等

     3、執行wordcount

hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest  result

注意:在執行的時候可能會提醒你result 這個文件已經存在,這說明上一次你在輸出結果的時候已經使用到了result 這個文件,所以要麼刪掉result這個文件夾。,要麼輸出結果到其他文件夾裏。比如說 resultn等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章