Java大數據學習20--數據倉庫工具Hive安裝模式的選擇及安裝步驟介紹

一、Hive安裝有三種模式:
內嵌模式:元數據保持在內嵌的derby模式,只允許一個會話連接(一般生產環境不用)
本地獨立模式:在本地安裝Mysql,把元數據放到mySql內
遠程模式:元數據放置在遠程的Mysql數據庫

Hive 將元數據存儲在 RDBMS 中,一般常用 MySQL 和 Derby。默認情況下,Hive 元數據保存在內嵌的 Derby 數據庫中,只能允許一個會話連接,只適合簡單的測試。
實際生產環境中不適用,爲了支持多用戶會話,則需要一個獨立的元數據庫,使用 MySQL 作爲元數據庫,Hive 內部對 MySQL 提供了很好的支持。
內置的derby主要問題是併發性能很差,可以理解爲單線程操作。Derby還有一個特性。更換目錄執行操作,會找不到相關表等
比如在/usr下執行創建表,在/usr下可以找到這個表。在/etc下執行查找這個表,就會找不到 。


二、Hive安裝步驟:
所以這裏我們選擇第二種模式:本地獨立模式,將元數據存到mysql當中,
Hive只在一個節點上安裝即可

1.上傳tar包

2.解壓

    tar -zxvf hive-0.9.0.tar.gz -C /cloud/


3.安裝mysql數據庫(切換到root用戶)(裝在哪裏沒有限制,只要網絡和hadoop集羣的節點互通即可)
    mysql安裝僅供參考,不同版本mysql有各自的安裝流程

        rpm -qa | grep mysql
        rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps
        rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm
        rpm -ivh MySQL-client-5.1.73-1.glibc23.i386.rpm


    修改mysql的密碼

/usr/bin/mysql_secure_installation

(注意:刪除匿名用戶,允許用戶遠程連接)
    登陸mysql

mysql -u root -p

4.配置hive
    (a)配置HIVE_HOME環境變量  vi conf/hive-env.sh 配置其中的$hadoop_home
    (b)配置元數據庫信息   vi  hive-site.xml
    添加如下內容:

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>


    
5.安裝hive和mysq完成後,將mysql的連接jar包拷貝到$HIVE_HOME/lib目錄下
    如果出現沒有權限的問題,在mysql授權(在安裝mysql的機器上執行)

mysql -uroot -p

 #(執行下面的語句  *.*:所有庫下的所有表   %:任何IP地址或主機都可以連接)

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
    FLUSH PRIVILEGES;

6. Jline包版本不一致的問題,需要拷貝hive的lib目錄中jline.2.12.jar的jar包替換掉hadoop中的
/home/hadoop/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar

啓動hive

bin/hive

6. 建表(默認是內部表)

   create table trade_detail(id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t';

    建分區表

create table td_part(id bigint, account string, income double, expenses double, time string) partitioned by (logdate string) row format delimited fields terminated by '\t';

    建外部表

  create external table td_ext(id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t' location '/td_ext';

7.創建分區表
    普通表和分區表區別:有大量數據增加的需要建分區表

 create table book (id bigint, name string) partitioned by (pubdate string) row format delimited fields terminated by '\t';

    分區表加載數據

load data local inpath './book.txt' overwrite into table book partition (pubdate='2010-08-22');
    
load data local inpath '/root/data.am' into table beauty partition (nation="USA");

select nation, avg(size) from beauties group by nation order by avg(size);

 

 

喜歡的朋友點個關注哦~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章