Hive1.2.1安裝和使用(基於Hadoop2.6.0)

安裝hive,這裏使用mysql作爲hive的metastore; 
Ubuntu 15.10虛擬機中安裝mysql方法請看:http://kevin12.iteye.com/admin/blogs/2280771 

Hadoop2.6.0集羣安裝:http://kevin12.iteye.com/blog/2273532 

1.查看spark 1.6.0版本支持hive的版本從0.12.0~1.2.1,這裏選擇hive的1.2.1版本。 


2.去官網下載apache-hive-1.2.1-bin.tar.gz,官網地址:http://hive.apache.org/downloads.html 
拷貝到master1虛擬機中的,執行命令解壓到當前目錄中,然後再移到/usr/local/hive目錄中。 
Java代碼  收藏代碼
  1. root@master1:/usr/local/tools# tar -zxvf apache-hive-1.2.1-bin.tar.gz   
  2. root@master1:/usr/local/tools# mv apache-hive-1.2.1-bin/usr/local/hive/  


配置hive的環境變量 
下面貼出我的~.bashrc環境變量配置: 
Java代碼  收藏代碼
  1. export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60  
  2. export JRE_HOME=${JAVA_HOME}/jre  
  3. export SCALA_HOME=/usr/local/scala/scala-2.10.4  
  4. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0  
  5. export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop  
  6. export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native  
  7. export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"  
  8. export SPARK_HOME=/usr/local/spark/spark-1.6.0-bin-hadoop2.6  
  9. export ZOOKEEPER_HOME=/usr/local/zookeeper/zookeeper-3.4.6  
  10. export HIVE_HOME=/usr/local/hive/apache-hive-1.2.1-bin  
  11. export HIVE_CONF_DIR=${HIVE_HOME}/conf  
  12. export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:${HIVE_HOME}/lib  
  13. export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${ZOOKEEPER_HOME}/bin:${HIVE_HOME}/bin:$PATH  

Hive的相關配置如下(紅框內): 



執行source ~/.bashrc 使配置生效! 

3.把mysql的jdbc驅動 mysql-connector-java-5.1.35-bin.jar拷貝到/usr/local/hive/apache-hive-1.2.1-bin/ 
msyql驅動下載文章結尾! 
4.將 hive-default.xml.template拷貝一份出來爲hive-site.xml,並修改hive-site.xml文件中下面配置的值: 
Java代碼  收藏代碼
  1. root@master1:/usr/local/hive/apache-hive-1.2.1-bin/conf# cp -a hive-default.xml.template hive-site.xml  
  2.  <property>  
  3.   <name>javax.jdo.option.ConnectionURL</name>  
  4.   <value>jdbc:mysql://master1:3306/hive?createDatabaseIfNotExist=true</value>  
  5.  </property>  
  6.  <property>  
  7.   <name>javax.jdo.option.ConnectionDriverName</name>  
  8.   <value>com.mysql.jdbc.Driver</value>  
  9.  </property>  
  10.  <property>  
  11.   <name>javax.jdo.option.ConnectionUserName</name>  
  12.   <value>root</value>  
  13.  </property>  
  14.  <property>  
  15.   <name>javax.jdo.option.ConnectionPassword</name>  
  16.   <value>admin</value>  
  17.  </property>  
  18. <property>  
  19.    <name>hive.metastore.warehouse.dir</name>  
  20.    <value>/user/hive/warehouse</value>  
  21.    <description>location of default database for the warehouse</description>  
  22.  </property>  
  23. <property>  
  24.    <name>hive.metastore.warehouse.dir</name>  
  25.    <value>/user/hive/warehouse</value>  
  26.    <description>location of default database for the warehouse</description>  
  27.  </property>  
  28. <property>  
  29.   <name>hive.querylog.location</name>  
  30.   <value>/usr/local/hive/iotmp/</value>  
  31.   <description>Location of Hive run time structured log file</description>  
  32. </property>  
  33. <property>  
  34.   <name>hive.server2.logging.operation.log.location</name>  
  35.   <value>/usr/local/hive/iotmp/operation_logs</value>  
  36.   <description>Top level directory where operation logs are stored if logging functionality is enabled</description>  
  37. </property>  
  38. <property>  
  39.   <name>hive.exec.local.scratchdir</name>  
  40.   <value>/usr/local/hive/iotmp/</value>  
  41.   <description>Local scratch space for Hive jobs</description>  
  42.   </property>  
  43. <property>  
  44.   <name>hive.downloaded.resources.dir</name>  
  45.   <value>/usr/local/hive/iotmp/${hive.session.id}_resources</value>  
  46.   <description>Temporary local directory for added resources in the remote file system.</description>  
  47.   </property  


5.配置hive-env.sh 
在最後添加下面的配置: 
Java代碼  收藏代碼
  1. root@master1:/usr/local/hive/apache-hive-1.2.1-bin/conf# cp -a hive-env.sh.template hive-env.sh  

export HIVE_HOME=/usr/local/hive/apache-hive-1.2.1-bin 
export HIVE_CONF_DIR=/usr/local/hive/apache-hive-1.2.1-bin/conf 


6.配置 hive-config.sh 
在最後面添加下面的配置: 
Java代碼  收藏代碼
  1. root@master1:/usr/local/hive/apache-hive-1.2.1-bin/bin# vim hive-config.sh  

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60 
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0 
export SPARK_HOME=/usr/local/spark/spark-1.6.0-bin-hadoop2.6 

注意: 
hadoop的版本是2.6.0,hive的版本是1.2.1,$HIVE_HOME/lib目錄下的jline-2.12.jar比$HADOOP_HOME/share/hadoop/yarn/lib下的jline-0.9.94.jar版本高,版本不一致導致。 
拷貝hive中的jline-2.12.jar到$HADOOP_HOME/share/hadoop/yarn/lib下,並重啓hadoop即可。 
root@master1:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib# mv jline-0.9.94.jar jline-0.9.94.jar20160305 
root@master1:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib# cp $HIVE_HOME/lib/jline-2.12.jar ./ 

7.啓動hive 
首先要啓動hadoop集羣,並且保證mysql已經啓動。 


5.練習使用hive 
Hive默認有一個Default的數據庫,默認建表會建到該數據庫中,表名不區分大小寫。 
5.1.創建testdb數據庫 
Java代碼  收藏代碼
  1. hive> create database testdb;  
  2. OK  
  3. Time taken: 0.125 seconds  
  4. hive> use testdb;  
  5. OK  
  6. Time taken: 0.068 seconds  
  7. hive> show databases;  
  8. OK  
  9. default  
  10. testdb  
  11. Time taken: 0.026 seconds, Fetched: 2 row(s)  
  12. hive> use testdb;  
  13. OK  
  14. Time taken: 0.059 seconds  
  15. hive>   

5.2創建內部表 
內部表特點:數據加載到內部表中是,如果數據在本地會在將本地數據拷貝一份到內部LOCATION指定的目錄下,如果數據在hdfs上,則會將hdfs中的數據mv到內部表指定的LOCATION中。刪除內部表時,會刪除相應LOCATION下的數據。 

Java代碼  收藏代碼
  1. hive> create table student(id int);  
  2. OK  
  3. Time taken: 0.113 seconds  
  4. hive>  

hive在hdfs中的默認位置是/user/hive/warehouse,該位置可以修改,是由配置文件hive-site.xml中屬性hive.metastore.warehouse.dir決定的,會在/user/hive/warehouse/testdb.db下創建student目錄。 
通過瀏覽器可以查看: 


5.3.加載數據到student表中 
在linux的/usr/local/hive目錄下創建文件,文件名爲student,裏面包含一列數據可以用數字; 
 
第一種加載數據到student中 
注意:使用load加載數據到數據庫中是不使用mapreduce的,而桶類型的表用insert要用到mapreduce。 
Java代碼  收藏代碼
  1. hive> LOAD DATA LOCAL INPATH '/usr/local/hive/student' INTO TABLE student;  
  2. Loading data to table testdb.student  
  3. Table testdb.student stats: [numFiles=1, totalSize=11]  
  4. OK  
  5. Time taken: 1.717 seconds  
  6. hive> select * from student;  
  7. OK  
  8. 1  
  9. 2  
  10. 3  
  11. 5  
  12. 6  
  13. NULL  
  14. Time taken: 0.572 seconds, Fetched: 6 row(s)  

使用select * 不加條件時,不執行MapReduce,執行比較快;最後一行顯示的是null,原因是文件中有一行空格; 

第二種加載數據到student中的方法 
在/usr/local/hive/目錄下創建student_1文件,並寫入一列數字; 
執行命令hadoop fs -put /usr/local/hive/student_1 /user/hive/warehouse/testdb.db/student 
或者 hdfs dfs -put  /usr/local/hive/student_1 /user/hive/warehouse/testdb.db/student 
查看結果: 
Java代碼  收藏代碼
  1. hive> select * from student where id is not null;  
  2. OK  
  3. 1  
  4. 2  
  5. 3  
  6. 5  
  7. 6  
  8. 4  
  9. 7  
  10. 8  
  11. 9  
  12. 10  
  13. 11  
  14. Time taken: 0.15 seconds, Fetched: 11 row(s)  
  15. hive>   

在瀏覽器中查看,會將數據放到/user/hive/warehouse/testdb.db/student目錄下,如下圖: 


6.創建表student2,有多個列的情況 
創建表,指定分隔符爲\t 
Java代碼  收藏代碼
  1. hive> CREATE TABLE student2(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';  
  2. OK  
  3. Time taken: 0.108 seconds  

創建文件,第一列數字,第二列是string類型的,兩列之間用\t分割; 
上傳文件,執行命令
Java代碼  收藏代碼
  1. hdfs dfs -put /usr/local/hive/student2 /user/hive/warehouse/testdb.db/student2  


查看student2表中的內容: 
Java代碼  收藏代碼
  1. hive> select * from student2;  
  2. OK  
  3. 1    zhangsan  
  4. 2    lisi  
  5. 3    wangwu  
  6. 4    張飛  
  7. 5    孫悟空  
  8. 6    豬八戒  
  9. Time taken: 0.111 seconds, Fetched: 6 row(s)  

注意:內部表會將數據拷貝一份到表目錄下面,如果刪除內部表元數據,那麼該元數據下面的數據也會被刪除; 

7.創建分區表 
創建分區表student3,指定分區爲d 
Java代碼  收藏代碼
  1. hive> CREATE TABLE student3(id int) PARTITIONED BY (d int);  
  2. OK  
  3. Time taken: 0.134 seconds  

創建數據 
 
加載數據到student3中,將student3_1加載到d=1的分區中,將student3_2加載到d=2的分區中。 
LOAD DATA LOCAL INPATH '/usr/local/hive/student3_1' INTO TABLE student3 PARTITION (d=1); 
LOAD DATA LOCAL INPATH '/usr/local/hive/student3_2' INTO TABLE student3 PARTITION (d=2); 

 
說明:第一列是數據,第二列是分區d; 

8. 桶表 
(表連接時候使用,根據桶的個數進行取模運算,將不同的數據放到不同的桶中) 
創建桶類型的表 
create table student4(id int) clustered by(id) into 4 buckets; 
必須啓用桶表 
set hive.enforce.bucketing = true; 
插入數據,這裏並沒有使用load,而是用的insert,insert加載數據使用了mapreduce。 
insert into table student4 select id from student3; 

從執行過程中可以看出:桶類型的表用insert要用到mapreduce。 

用瀏覽器查看,創建4個桶,所以生成了4個文件進行存儲,分桶的是對4取膜,結果爲0的放到了00000_0中,結果爲1的放到00000_1中,依次類推; 

 

9.外部表 
外部表的特點是:刪除表的時候,只刪除表定義,不刪除表內容。 
首先創建/user/hive/data目錄,再將/usr/local/hive/student文件上傳到/user/hive/data目錄中。 
Java代碼  收藏代碼
  1. root@master1:/usr/local/hive# hdfs dfs -mkdir /user/hive/data/  
  2. 16/03/05 19:36:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  
  3. root@master1:/usr/local/hive# hdfs dfs -put student /user/hive/data  
  4. 16/03/05 19:37:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  
  5. root@master1:/usr/local/hive#  

創建外部表 
create external table student5(id int) location '/user/hive/data/'; 
說明:如果不指定location,默認的location是/user/hive/warehouse/student5(也即是hdfs://master1:9000/user/hive/warehouse/student6) 
 

查看瀏覽器,發現外部表創建後並沒有在hdfs中產生目錄 


登錄到mysql數據庫查看,發現外部表和內部表的LOCATION不一樣了。 

select * from SDS; 
select * from TBLS; 
刪除外部表student5查看hdfs上的數據是否被刪除, 
Java代碼  收藏代碼
  1. hive> drop table student5;  
  2. OK  
  3. Time taken: 0.105 seconds  

再次查看mysql數據庫,發現表結構已經刪除,但是數據還是在hdfs上存在。 



10.外部分區表 
創建外部分區表 
Java代碼  收藏代碼
  1. drop table if exists student6;  
  2. create EXTERNAL TABLE IF NOT EXISTS student6(  
  3. id int  
  4. )  
  5. PARTITIONED BY (d string);  

 

將/usr/local/hive/student3_1和student3_2文件分別上傳到/user/hive/warehouse/student6/d=1和/user/hive/warehouse/student6/d=2目錄中; 


分別加載/user/hive/warehouse/student6/d=1和/user/hive/warehouse/student6/d=2中的數據到分區d=1和d=2中; 
ALTER TABLE student6 ADD PARTITION (d='1')LOCATION '/user/hive/warehouse/student6/d=1'; 


11.hive中的視圖 
創建student6表的視圖,並查詢視圖 
create view vw_student6(id) as select id from (select * from student6 where d=1 union all select * from student6 where d=2)a; 


其他Hive命令簡單介紹 
limit命令:select * from t1 limit 3;只會查詢出3條記錄。 
order by 是對結果進行全排序,使用一個reducer,效率較差 
sort by 是對每個reducerjinx局部排序,不對整體結果排序,效率較高 
distribute by 指的是對mapper的輸出按照指定字段,把數據傳遞到reducer端; 
cluster by 子句相當於sort by和distribute by一起操作。 
強轉:使用函數CAST(id AS long)把id的類型強轉爲long類型。 

詳細的可參考官網:http://hive.apache.org/ 
發佈了36 篇原創文章 · 獲贊 40 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章