Hive1.2.1安裝和使用(基於Hadoop2.6.0)

安裝hive，這裏使用mysql作爲hive的metastore;
Ubuntu 15.10虛擬機中安裝mysql方法請看：http://kevin12.iteye.com/admin/blogs/2280771

Hadoop2.6.0集羣安裝：http://kevin12.iteye.com/blog/2273532

1.查看spark 1.6.0版本支持hive的版本從0.12.0~1.2.1,這裏選擇hive的1.2.1版本。

2.去官網下載apache-hive-1.2.1-bin.tar.gz，官網地址：http://hive.apache.org/downloads.html
拷貝到master1虛擬機中的,執行命令解壓到當前目錄中，然後再移到/usr/local/hive目錄中。

Java代碼  

root@master1:/usr/local/tools# tar -zxvf apache-hive-1.2.1-bin.tar.gz   

root@master1:/usr/local/tools# mv apache-hive-1.2.1-bin/usr/local/hive/  

配置hive的環境變量
下面貼出我的~.bashrc環境變量配置：

Java代碼  

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60  

export JRE_HOME=${JAVA_HOME}/jre  

export SCALA_HOME=/usr/local/scala/scala-2.10.4  

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0  

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop  

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native  

export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"  

export SPARK_HOME=/usr/local/spark/spark-1.6.0-bin-hadoop2.6  

export ZOOKEEPER_HOME=/usr/local/zookeeper/zookeeper-3.4.6  

export HIVE_HOME=/usr/local/hive/apache-hive-1.2.1-bin  

export HIVE_CONF_DIR=${HIVE_HOME}/conf  

export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:${HIVE_HOME}/lib  

export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${ZOOKEEPER_HOME}/bin:${HIVE_HOME}/bin:$PATH

Hive的相關配置如下（紅框內）：

執行source ~/.bashrc 使配置生效！

3.把mysql的jdbc驅動 mysql-connector-java-5.1.35-bin.jar拷貝到/usr/local/hive/apache-hive-1.2.1-bin/
msyql驅動下載文章結尾！
4.將 hive-default.xml.template拷貝一份出來爲hive-site.xml，並修改hive-site.xml文件中下面配置的值：

Java代碼  

root@master1:/usr/local/hive/apache-hive-1.2.1-bin/conf# cp -a hive-default.xml.template hive-site.xml  

 <property>  

  <name>javax.jdo.option.ConnectionURL</name>  

  <value>jdbc:mysql://master1:3306/hive?createDatabaseIfNotExist=true</value>  

 </property>  

 <property>  

  <name>javax.jdo.option.ConnectionDriverName</name>  

  <value>com.mysql.jdbc.Driver</value>  

 </property>  

 <property>  

  <name>javax.jdo.option.ConnectionUserName</name>  

  <value>root</value>  

 </property>  

 <property>  

  <name>javax.jdo.option.ConnectionPassword</name>  

  <value>admin</value>  

 </property>  

<property>  

   <name>hive.metastore.warehouse.dir</name>  

   <value>/user/hive/warehouse</value>  

   <description>location of default database for the warehouse</description>  

 </property>  

<property>  

   <name>hive.metastore.warehouse.dir</name>  

   <value>/user/hive/warehouse</value>  

   <description>location of default database for the warehouse</description>  

 </property>  

<property>  

  <name>hive.querylog.location</name>  

  <value>/usr/local/hive/iotmp/</value>  

  <description>Location of Hive run time structured log file</description>  

</property>  

<property>  

  <name>hive.server2.logging.operation.log.location</name>  

  <value>/usr/local/hive/iotmp/operation_logs</value>  

  <description>Top level directory where operation logs are stored if logging functionality is enabled</description>  

</property>  

<property>  

  <name>hive.exec.local.scratchdir</name>  

  <value>/usr/local/hive/iotmp/</value>  

  <description>Local scratch space for Hive jobs</description>  

  </property>  

<property>  

  <name>hive.downloaded.resources.dir</name>  

  <value>/usr/local/hive/iotmp/${hive.session.id}_resources</value>  

  <description>Temporary local directory for added resources in the remote file system.</description>  

  </property

5.配置hive-env.sh
在最後添加下面的配置：

Java代碼  

root@master1:/usr/local/hive/apache-hive-1.2.1-bin/conf# cp -a hive-env.sh.template hive-env.sh  

export HIVE_HOME=/usr/local/hive/apache-hive-1.2.1-bin
export HIVE_CONF_DIR=/usr/local/hive/apache-hive-1.2.1-bin/conf

6.配置 hive-config.sh
在最後面添加下面的配置：

Java代碼  

root@master1:/usr/local/hive/apache-hive-1.2.1-bin/bin# vim hive-config.sh  

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0
export SPARK_HOME=/usr/local/spark/spark-1.6.0-bin-hadoop2.6

注意：
hadoop的版本是2.6.0，hive的版本是1.2.1，$HIVE_HOME/lib目錄下的jline-2.12.jar比$HADOOP_HOME/share/hadoop/yarn/lib下的jline-0.9.94.jar版本高，版本不一致導致。
拷貝hive中的jline-2.12.jar到$HADOOP_HOME/share/hadoop/yarn/lib下，並重啓hadoop即可。
root@master1:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib# mv jline-0.9.94.jar jline-0.9.94.jar20160305
root@master1:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib# cp $HIVE_HOME/lib/jline-2.12.jar ./

7.啓動hive
首先要啓動hadoop集羣，並且保證mysql已經啓動。

5.練習使用hive
Hive默認有一個Default的數據庫，默認建表會建到該數據庫中，表名不區分大小寫。
5.1.創建testdb數據庫

Java代碼  

hive> create database testdb;  

OK  

Time taken: 0.125 seconds  

hive> use testdb;  

OK  

Time taken: 0.068 seconds  

hive> show databases;  

OK  

default  

testdb  

Time taken: 0.026 seconds, Fetched: 2 row(s)  

hive> use testdb;  

OK  

Time taken: 0.059 seconds  

hive>

5.2創建內部表
內部表特點：數據加載到內部表中是，如果數據在本地會在將本地數據拷貝一份到內部LOCATION指定的目錄下，如果數據在hdfs上，則會將hdfs中的數據mv到內部表指定的LOCATION中。刪除內部表時，會刪除相應LOCATION下的數據。

Java代碼  

hive> create table student(id int);  

OK  

Time taken: 0.113 seconds  

hive>

hive在hdfs中的默認位置是/user/hive/warehouse，該位置可以修改，是由配置文件hive-site.xml中屬性hive.metastore.warehouse.dir決定的，會在/user/hive/warehouse/testdb.db下創建student目錄。
通過瀏覽器可以查看：

5.3.加載數據到student表中
在linux的/usr/local/hive目錄下創建文件，文件名爲student，裏面包含一列數據可以用數字；

第一種加載數據到student中
注意：使用load加載數據到數據庫中是不使用mapreduce的，而桶類型的表用insert要用到mapreduce。

Java代碼  

hive> LOAD DATA LOCAL INPATH '/usr/local/hive/student' INTO TABLE student;  

Loading data to table testdb.student  

Table testdb.student stats: [numFiles=1, totalSize=11]  

OK  

Time taken: 1.717 seconds  

hive> select * from student;  

OK  

1  

2  

3  

5  

6  

NULL  

Time taken: 0.572 seconds, Fetched: 6 row(s)

使用select * 不加條件時，不執行MapReduce，執行比較快；最後一行顯示的是null，原因是文件中有一行空格；

第二種加載數據到student中的方法
在/usr/local/hive/目錄下創建student_1文件，並寫入一列數字；
執行命令hadoop fs -put /usr/local/hive/student_1 /user/hive/warehouse/testdb.db/student
或者 hdfs dfs -put /usr/local/hive/student_1 /user/hive/warehouse/testdb.db/student
查看結果：

Java代碼  

hive> select * from student where id is not null;  

OK  

1  

2  

3  

5  

6  

4  

7  

8  

9  

10  

11  

Time taken: 0.15 seconds, Fetched: 11 row(s)  

hive>

在瀏覽器中查看，會將數據放到/user/hive/warehouse/testdb.db/student目錄下，如下圖：

6.創建表student2，有多個列的情況
創建表，指定分隔符爲\t

Java代碼  

hive> CREATE TABLE student2(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';  

OK  

Time taken: 0.108 seconds

創建文件，第一列數字，第二列是string類型的，兩列之間用\t分割；
上傳文件，執行命令

Java代碼  

hdfs dfs -put /usr/local/hive/student2 /user/hive/warehouse/testdb.db/student2  

查看student2表中的內容：

Java代碼  

hive> select * from student2;  

OK  

1    zhangsan  

2    lisi  

3    wangwu  

4    張飛  

5    孫悟空  

6    豬八戒  

Time taken: 0.111 seconds, Fetched: 6 row(s)

注意：內部表會將數據拷貝一份到表目錄下面，如果刪除內部表元數據，那麼該元數據下面的數據也會被刪除；

7.創建分區表
創建分區表student3,指定分區爲d

Java代碼  

hive> CREATE TABLE student3(id int) PARTITIONED BY (d int);  

OK  

Time taken: 0.134 seconds

創建數據

加載數據到student3中，將student3_1加載到d=1的分區中，將student3_2加載到d=2的分區中。
LOAD DATA LOCAL INPATH '/usr/local/hive/student3_1' INTO TABLE student3 PARTITION (d=1);
LOAD DATA LOCAL INPATH '/usr/local/hive/student3_2' INTO TABLE student3 PARTITION (d=2);

說明：第一列是數據，第二列是分區d;

8. 桶表
(表連接時候使用，根據桶的個數進行取模運算，將不同的數據放到不同的桶中)
創建桶類型的表
create table student4(id int) clustered by(id) into 4 buckets;
必須啓用桶表
set hive.enforce.bucketing = true;
插入數據，這裏並沒有使用load，而是用的insert，insert加載數據使用了mapreduce。
insert into table student4 select id from student3;

從執行過程中可以看出：桶類型的表用insert要用到mapreduce。

用瀏覽器查看,創建4個桶，所以生成了4個文件進行存儲，分桶的是對4取膜，結果爲0的放到了00000_0中，結果爲1的放到00000_1中，依次類推；

9.外部表
外部表的特點是：刪除表的時候，只刪除表定義，不刪除表內容。
首先創建/user/hive/data目錄，再將/usr/local/hive/student文件上傳到/user/hive/data目錄中。

Java代碼  

root@master1:/usr/local/hive# hdfs dfs -mkdir /user/hive/data/  

16/03/05 19:36:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  

root@master1:/usr/local/hive# hdfs dfs -put student /user/hive/data  

16/03/05 19:37:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  

root@master1:/usr/local/hive#

創建外部表
create external table student5(id int) location '/user/hive/data/';
說明：如果不指定location，默認的location是/user/hive/warehouse/student5（也即是hdfs://master1:9000/user/hive/warehouse/student6）

查看瀏覽器，發現外部表創建後並沒有在hdfs中產生目錄

登錄到mysql數據庫查看，發現外部表和內部表的LOCATION不一樣了。

select * from SDS;
select * from TBLS;
刪除外部表student5查看hdfs上的數據是否被刪除，

Java代碼  

hive> drop table student5;  

OK  

Time taken: 0.105 seconds

再次查看mysql數據庫，發現表結構已經刪除，但是數據還是在hdfs上存在。

10.外部分區表
創建外部分區表

Java代碼  

drop table if exists student6;  

create EXTERNAL TABLE IF NOT EXISTS student6(  

id int  

)  

PARTITIONED BY (d string);

將/usr/local/hive/student3_1和student3_2文件分別上傳到/user/hive/warehouse/student6/d=1和/user/hive/warehouse/student6/d=2目錄中；

分別加載/user/hive/warehouse/student6/d=1和/user/hive/warehouse/student6/d=2中的數據到分區d=1和d=2中；
ALTER TABLE student6 ADD PARTITION (d='1')LOCATION '/user/hive/warehouse/student6/d=1';

11.hive中的視圖
創建student6表的視圖，並查詢視圖
create view vw_student6(id) as select id from (select * from student6 where d=1 union all select * from student6 where d=2)a;

其他Hive命令簡單介紹
limit命令：select * from t1 limit 3;只會查詢出3條記錄。
order by 是對結果進行全排序，使用一個reducer，效率較差
sort by 是對每個reducerjinx局部排序，不對整體結果排序，效率較高
distribute by 指的是對mapper的輸出按照指定字段，把數據傳遞到reducer端；
cluster by 子句相當於sort by和distribute by一起操作。
強轉：使用函數CAST（id AS long）把id的類型強轉爲long類型。

詳細的可參考官網：http://hive.apache.org/