linux環境下Hadoop+hive的安裝

一、前期工作：

1.修改linux ip

手動修改

也可以命令修改

vim /etc/sysconfig/network-scripts/ifcfg-eth0

2.修改主機名(注意ubuntu版本方式)

vim /etc/sysconfig/network

將之前的名字更改爲itcast01

3.修改主機名與 ip 對應關係

vim /etc/hosts

192.168.8.88 itcast01

4.關閉防火牆

查看防護牆狀態

service iptables status

關閉

service iptables stop

查看防火牆開機啓動狀態

chkconfig iptables --list

關閉開機啓動

chkconfig iptables off

二、安裝Java JDK

這裏使用的是 jdk-7u60-linux-i586.tar.gz，這裏我使用VMware-->共享文件夾，（需要安裝好）VMware Tool工具，這樣我們就可以使用共享文件夾方式將windows下的文件，共享到linux平臺。共享在/mnt/hdfs/

mkdir /usr/java

tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java

將java添加到環境變量中

vim /etc/profile

在文件的末尾添加如下內容

export JAVA_HOME=/usr/java/jdk1.7.0_60

export PATH=$PATH:$JAVA_HOME/bin

刷新配置

source /etc/profile

三、安裝hadoop

下載hadoop

https://archive.apache.org/dist/

https://archive.apache.org/dist/hadoop/core/hadoop-2.2.0/

本次下載的是： hadoop-2.2.0.tar.gz

1.上傳hadoop包，我這裏使用FileZilla上傳到 linux下root 目錄下

2.解壓hadoop包

mkdir /itcast

tar -zxvf hadoop-2.2.0.tar.gz -C /itcast

3.配置hadoop僞分佈式（要修改etc/下的4個文件）

第一個：hadoop-env.sh

vim hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_60

第二個：core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://itcast01:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/itcast/hadoop-2.2.0/tmp</value>

</property>

</configuration>

第三個：hdfs-site.xml

<name>dfs.replication</name>

</property>

<property>
<name>dfs.namenode.http.address</name>
<value>itcast:50070</value>
</property>

</configuration>

第四個：mapred-site.xml (需要從此文件複製mapred-site.xml.template)

<name>mapreduce.framework.name</name>

</property>

</configuration>

第五個：yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>itcast01</value>

</property>

</configuration>

4.將Hadoop添加到環境變量中

vim /etc/profile

export JAVA_HOME=/usr/java/jdk1.7.0_60

export HADOOP_HOME=/itcast/hadoop-2.2.0

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

#刷新配置

source /etc/profile

5.初始化HDFS（格式化文件系統，此步類似剛買U盤需要格式化）

#hadoop namenode -format(過時了)

hdfs namenode -format

6.啓動文HDFS和YARN

./start-all.sh（過時了）This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh

Starting namenodes on [it]

#有個小問題（需要多次輸入密碼）

接下來，使用jps查看進程情況

jps（jps 在Linux/unix平臺上簡單察看當前java進程的一些簡單情況），如果有以下進程則表示測試通過

3887 Jps （java進程）

3449 SecondaryNameNode （相當於NameNode的助理）

3263 DataNode （hdfs部門的小弟，負責存放數據）

3138 NameNode （hdfs部門的老大）

3579 ResourceManager （yarn部門的老大，yarn負責資源管理）

3856 NodeManager （yarn部門的小弟，可以一個，集羣的話會有很多）

另外，我們也可以在windows平臺下，使用瀏覽器進行查看，是否搭建成功

http://192.168.8.88:50070 ( hdfs管理界面)

http://192.168.8.88:8088 （yarn管理界面）

【提示】如果無法訪問50070端口，解決辦法：

（1）先查看一下50070端口狀態： netstat -ntulp |grep 50070

如果處於活動狀態，則再查看防火牆是否開了，簡單一點，先閉防火牆。

（2）一般最好是關閉防火牆比較關閉。 systemctl stop firewalld.service 關閉防火牆；

禁止自動啓動就用 systemctl disable firewalld.service . 就可以了。

在這個文件中添加linux主機名和IP的映射關係

c:\Windows\System32\drivers\etc

在末尾，添加

192.168.8.88 itcast01

四、測試hdfs（主要存儲數據，存儲海量數據）

1.上傳文件

hadoop fs -put /mnt/hgfs/share/jdk-7u60-linux-i586.tar.gz hdfs://itcast01:9000/jdk

2.下載文件

hadoop fs -get hdfs://itcast01:9000/jdk /home/jdk1.7

五、測試MapReduce和Yarn

官方提供了一個Jar包

/itcast/hadoop-2.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar

在這裏，我們測試一下單詞統計（輸入與輸出，都存放在hdfs，因爲可能文件很大）

我們新建一個words文件

hello tom

hello jerry

hello kitty

hello world

hello tom

將此文件words上傳到hdfs上，接着我們使用mapreduce統計單詞，同時輸出也存放到hdfs上

hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount hdfs://itcast01:9000/words hdfs://itcast01:9000/wcount

這一個是hdfs://itcast01:9000/wcount 上是MapReduce統計結果

hello 5

jerry 1

kitty 1

tom 2

world 1

六、配置SSH免密碼登錄(/root/.ssh)

#SSH協議（讓linux不同機器，啓動起來。hadoop老大爲了讓小弟聽話，使用SSH進行控制）

ssh-keygen -t rsa

執行完這個命令後，會生成兩個文件id_rsa(私鑰)、id_rsa.pub(公鑰)

將公鑰拷貝成authorized_keys 文件上

cp id_rsa.pub authorized_keys

接下來，我們將公鑰發送給想要登錄的linux機器（實質是拷貝authorized_keys ）

ssh-copy-id 192.168.8.89

這樣，我們以後使用192.168.8.88（NameNode主機）免密登錄192.168.8.89

至此Hadoop部分安裝完成！

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面開始介紹hive的安裝

1下載hive

2安裝

2.1上載和解壓縮

2.2配置環境變量

2.3對hive進行配置

2.3.1 hive-site.xml相關的配置

2.3.1.1新建hive-site.xml文件

2.3.1.2使用hadoop新建hdfs目錄

2.3.1.3檢查hdfs目錄是否創建成功

2.3.1.4修改hive-site.xml中的臨時目錄

2.3.1.5修改hive-site.xml數據庫相關的配置

2.3.1.6將MySQL驅動包上載到lib目錄

2.3.2新建hive-env.sh文件並進行修改

3啓動和測試

3.1對MySQL數據庫進行初始化

3.2啓動hive

3.3測試

3.3.1執行簡單測試命令

3.3.2執行新建表以及導入數據的測試

3.3.2.1新建數據庫

3.2.2.2創建數據表

3.2.2.3將文件數據寫入表中

3.2.2.4查看是否寫入成功

3.2.2.5在界面上查看剛纔寫入hdfs的數據

3.2.2.6在MySQL的hive數據庫中查看

4錯誤和解決

4.1報錯Unable toload native-hadoop library for your platform

4.2報錯There are2 datanode(s) running and 2 node(s) are excluded in this operation

關鍵字：Linux Java CentOS Hadoop Hive

說明：安裝hive前提是要先安裝hadoop集羣，並且hive只需要再hadoop的namenode節點集羣裏安裝即可(需要再所有namenode上安裝)，可以不在datanode節點的機器上安裝。另外還需要說明的是，雖然修改配置文件並不需要你已經把hadoop跑起來，但是本文中用到了hadoop命令，在執行這些命令前你必須確保hadoop是在正常跑着的，而且啓動hive的前提也是需要hadoop在正常跑着，所以建議你先將hadoop跑起來在按照本文操作。

如何安裝和啓動hadoop集羣，請參考：

http://blog.csdn.net/pucao_cug/article/details/71698903

1下載hive
下載地址：http://hive.apache.org/downloads.html

點擊上圖的Download release now!

如圖：

點擊上圖的某個下載地址，我點擊的是國內的這個地址：http://mirror.bit.edu.cn/apache/hive/

如圖：

點擊進入：

apache-hive-2.1.1-bin.tar.gz

2安裝
2.1上載和解壓縮
在opt目錄下新建一個名爲hive的目錄，將apache-hive-2.1.1-bin.tar.gz拷貝上去

執行進入目錄的命令：

cd /opt/hive

執行解壓縮的命令：

tar -zxvf apache-hive-2.1.1-bin.tar.gz

2.2配置環境變量
編輯/etc/profile文件，增加hive相關的環境變量配置

如圖：

該文件中手工增加的內容是(橘黃色字體部分)：

export JAVA_HOME=/opt/java/jdk1.8.0_121

export HADOOP_HOME=/opt/hadoop/hadoop-2.8.0

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native

export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"

export HIVE_HOME=/opt/hive/apache-hive-2.1.1-bin

export HIVE_CONF_DIR=${HIVE_HOME}/conf

export CLASS_PATH=.:${JAVA_HOME}/lib:${HIVE_HOME}/lib:$CLASS_PATH

export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin:$PATH

profile文件編輯完成後，執行下面命令，讓配置生效，命令是;

source /etc/profile

說明：上面的環境變量中只有JAVA_HOME相關的、HADOOP相關的、HIVE相關的是必須的，相關的路徑必須要和你機器對應。

2.3對hive進行配置
2.3.1 hive-site.xml相關的配置
2.3.1.1新建hive-site.xml文件
進入到/opt/hive/apache-hive-2.1.1-bin/conf目錄，命令是：

cd /opt/hive/apache-hive-2.1.1-bin/conf

將hive-default.xml.template文件複製一份，並且改名爲hive-site.xml，命令是：

cp hive-default.xml.template hive-site.xml

2.3.1.2使用hadoop新建hdfs目錄
因爲在hive-site.xml中有這樣的配置：

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<name>hive.exec.scratchdir</name>

所以要讓hadoop新建/user/hive/warehouse目錄，執行命令：

$HADOOP_HOME/bin/hadoop fs -mkdir -p /user/hive/warehouse

給剛纔新建的目錄賦予讀寫權限，執行命令：

$HADOOP_HOME/bin/hadoop fs -chmod 777 /user/hive/warehouse

如圖：

讓hadoop新建/tmp/hive/目錄，執行命令：

$HADOOP_HOME/bin/hadoop fs -mkdir -p /tmp/hive/

如圖：

給剛纔新建的目錄賦予讀寫權限，執行命令：

$HADOOP_HOME/bin/hadoop fs -chmod 777 /tmp/hive

如圖：

2.3.1.3檢查hdfs目錄是否創建成功
檢查/user/hive/warehouse目錄是否創建成功，執行命令：

$HADOOP_HOME/bin/hadoop fs -ls /user/hive/

如圖：

檢查/tmp/hive是否創建成功，執行命令：

$HADOOP_HOME/bin/hadoop fs -ls /tmp/

如圖：

2.3.1.4修改hive-site.xml中的臨時目錄
將hive-site.xml文件中的${system:java.io.tmpdir}替換爲hive的臨時目錄，例如我替換爲/opt/hive/tmp，該目錄如果不存在則要自己手工創建，並且賦予讀寫權限。

如圖：

被我替換爲了

如圖：

將${system:user.name}都替換爲root

如圖：

被替換爲了

如圖：

說明：截圖並不完整，只是截取了幾處以作舉例，你在替換時候要認真仔細的全部替換掉。

2.3.1.5修改hive-site.xml數據庫相關的配置
搜索javax.jdo.option.ConnectionURL，將該name對應的value修改爲MySQL的地址，例如我修改後是：

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://192.168.27.138:3306/hive?createDatabaseIfNotExist=true</value>

搜索javax.jdo.option.ConnectionDriverName，將該name對應的value修改爲MySQL驅動類路徑，例如我的修改後是：

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

搜索javax.jdo.option.ConnectionUserName，將對應的value修改爲MySQL數據庫登錄名：

<name>javax.jdo.option.ConnectionUserName</name>

搜索javax.jdo.option.ConnectionPassword，將對應的value修改爲MySQL數據庫的登錄密碼：

<name>javax.jdo.option.ConnectionPassword</name>

搜索hive.metastore.schema.verification，將對應的value修改爲false：

<name>hive.metastore.schema.verification</name>

<value>false</value>

2.3.1.6將MySQL驅動包上載到lib目錄
將MySQL驅動包上載到Hive的lib目錄下，例如我是上載到/opt/hive/apache-hive-2.1.1-bin/lib目錄下。

如圖：

2.3.2新建hive-env.sh文件並進行修改
進入到/opt/hive/apache-hive-2.1.1-bin/conf目錄，命令是：

cd /opt/hive/apache-hive-2.1.1-bin/conf

將hive-env.sh.template文件複製一份，並且改名爲hive-env.sh，命令是：

cp hive-env.sh.template hive-env.sh

打開hive-env.sh配置並且添加以下內容：

export HADOOP_HOME=/opt/hadoop/hadoop-2.8.0

export HIVE_CONF_DIR=/opt/hive/apache-hive-2.1.1-bin/conf

export HIVE_AUX_JARS_PATH=/opt/hive/apache-hive-2.1.1-bin/lib

3啓動和測試
3.1對MySQL數據庫進行初始化
進入到hive的bin目錄執行命令：

cd /opt/hive/apache-hive-2.1.1-bin/bin

對數據庫進行初始化，執行命令：

schematool -initSchema -dbType mysql

如圖：

執行成功後，hive數據庫裏已經有一堆表創建好了

如圖：

3.1啓動hive
進入到hive的bin目錄執行命令：

cd /opt/hive/apache-hive-2.1.1-bin/bin

執行hive腳本進行啓動，執行命令：

./hive

如圖：

3.3測試
3.3.1 執行簡單測試命令
執行了3.2的hive腳本，啓動成功後，就進入了hive的命令行模式。下面進行一系列簡單測試：

執行查看函數的命令：

show functions;

如圖：

執行查看sum函數的詳細信息的命令：

desc function sum;

如圖：

3.3.2執行新建表以及導入數據的測試
3.3.2.1新建數據庫
執行新建數據庫的hive命令：

create database db_hive_edu;

如圖：

3.2.2.2 創建數據表
在剛纔創建的數據庫中創建數據表，執行hive命令：

use db_hive_edu;

create table student(id int,name string) row format delimited fields terminated by '\t';

如圖：

3.2.2.3將文件數據寫入表中
(1)在/opt/hive目錄內新建一個文件

執行Linux命令(最好是重新打開一個終端來執行)：

touch /opt/hive/student.txt

如圖：

往文件中添加以下內容：

001 zhangsan
002 lisi
003 wangwu
004 zhaoliu
005 chenqi
如圖：

說明：ID和name直接是TAB鍵，不是空格，因爲在上面創建表的語句中用了terminated by '\t'所以這個文本里id和name的分割必須是用TAB鍵(複製粘貼如果有問題，手動敲TAB鍵吧)，還有就是行與行之間不能有空行，否則下面執行load，會把NULL存入表內，該文件要使用unix格式，如果是在windows上用txt文本編輯器編輯後在上載到服務器上，需要用工具將windows格式轉爲unix格式，例如可以使用Notepad++來轉換。

完成上面的步驟後，在磁盤上/opt/hive/student.txt文件已經創建成功，文件中也已經有了內容，在hive命令行中執行加載數據的hive命令：

load data local inpath '/opt/hive/student.txt' into table db_hive_edu.student;

如圖：

3.2.2.4查看是否寫入成功
執行命令，查看是否把剛纔文件中的數據寫入成功，hive命令是：

select * from student;

如圖：

說明：因爲什麼的操作使用use db_hive_edu;指定了數據庫，所以這裏直接用表名student，如果沒有指定數據庫，請把這個語句換成

select * from db_hive_edu.student;

3.2.2.5在界面上查看剛纔寫入hdfs的數據
我的hadoop的namenode的IP地址是192.168.27.134，所以我要在瀏覽器裏訪問如下地址：

http://192.168.27.134:50070/explorer.html#/user/hive/warehouse/db_hive_edu.db

如圖：

點擊上圖的student,相當於是直接訪問該地址：

http://192.168.27.134:50070/explorer.html#/user/hive/warehouse/db_hive_edu.db/student

如圖：

點擊student.txt，會彈出一個框

如圖：

3.2.2.6在MySQL的hive數據庫中查看
在MySQL數據庫中執行select語句，查看hive創建的表，SQL是：

SELECT * FROM hive.TBLS

如圖：

4錯誤和解決
4.1警告Unable to load native-hadoop library for yourplatform
實際上其實這個警告可以不予理會。

4.2報錯There are 2 datanode(s) running and 2 node(s) areexcluded in this operation.
報錯詳情：

hive> load data local inpath '/opt/hive/student.txt' intotable db_hive_edu.student;

Loading data to table db_hive_edu.student

Failed with exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/hive/warehouse/db_hive_edu.db/student/student_copy_2.txt could only bereplicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and 2 node(s)are excluded in this operation.

atorg.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1559)

atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:3245)

atorg.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:663)

atorg.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:482)

atorg.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)

atorg.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:619)

atorg.apache.hadoop.ipc.RPC$Server.call(RPC.java:975)

atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2040)

atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2036)

atjava.security.AccessController.doPrivileged(Native Method)

atjavax.security.auth.Subject.doAs(Subject.java:422)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1656)

at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2034)

FAILED: Execution Error, return code 1 fromorg.apache.hadoop.hive.ql.exec.MoveTask.org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/hive/warehouse/db_hive_edu.db/student/student_copy_2.txt could only bereplicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and 2 node(s)are excluded in this operation.

atorg.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1559)

atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:3245)

atorg.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:663)

at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:482)

atorg.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)

atorg.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:619)

atorg.apache.hadoop.ipc.RPC$Server.call(RPC.java:975)

atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2040)

atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2036)

atjava.security.AccessController.doPrivileged(Native Method)

atjavax.security.auth.Subject.doAs(Subject.java:422)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1656)

atorg.apache.hadoop.ipc.Server$Handler.run(Server.java:2034)

原因和解決：

原因是你的hadoop中的datanode有問題，沒發寫入數據，請檢查你的hadoop是否正常運行，看是否能正常訪問http://nodename的IP地址:50070

例如我的是http://192.168.27.134:50070

如果能正常訪問，在看datanode狀態是否正常，訪問地址是：

http://192.168.27.134:50070/dfshealth.html#tab-datanode

如圖：

如果不正常，請回頭檢查自己hadoop的安裝配置是否正確，hive的安裝和配置是否正確。

linux環境下Hadoop+hive的安裝

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

Centos7.0上安裝Docker

Linux上安裝 jenkins日記

玩轉Kettle8

Hive數據庫和表操作命令參考

kaldi中文語音識別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結