PHOENIX操作HBASE

HBase,一個NoSQL數據庫,可存儲大量非關係型數據。

HBase,可以用HBase shell進行操作,也可以用HBase Java api進行操作。HBase雖然是一個數據庫,但是它的查詢語句,很不太好用。要是能像使用Mysql等關係型數據庫一樣用sql語句操作HBase,那就很Perfect了。

 

現有工具有很多Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要記錄Phoenix。

 

phoenix,由saleforce.com開源的一個項目,後又捐給了Apache。它相當於一個Java中間件,幫助開發者,像使用jdbc訪問關係型數據庫一些,訪問NoSql數據庫HBase。

phoenix,操作的表及數據,存儲在hbase上。phoenix只是需要和Hbase進行表關聯起來。然後再用工具進行一些讀或寫操作。

其實,可以把Phoenix只看成一種代替HBase的語法的一個工具。雖然可以用java可以用jdbc來連接phoenix,然後操作HBase,但是在生產環境中,不可以用在OLTP(在線事務處理)中。在線事務處理的環境中,需要低延遲,而Phoenix在查詢HBase時,雖然做了一些優化,但延遲還是不小。所以依然是用在OLAP(聯機分析處理)中,再將結果返回存儲下來。

 

phoenix能幹嘛:總結一句,就是方便操作了。其他的,沒有多少優勢。

phoenix不能幹嘛

①不支持事務處理

②不支持複雜的條件

③表之間的關聯操作

 

Phoenix安裝

 

1、下載phoenix

phoenix與HBase版本對應關係

Phoenix 2.x – HBase 0.94.x

Phoenix 3.x – HBase 0.94.x

Phoenix 4.x – HBase 0.98.1+

我目前測試使用版本概況:

Hadoop1.0.4

HBase0.94.18

所以我可以用phoenix2.xphoenix3.x

官網download頁面有

1111111111111111111111

我選用的是phoenix3.1.0版本。

 

2、上傳到主節點linux就ok了,解壓縮

tar –zxvf phoenix.tar.gz

pwd

/root/phoenix

ll phoenix

201503111800

phoenix目錄結構可能會有點不同,主要是bin目錄的位置,可能在hadoop1下,也可能直接在 /root/phoenix下。沒關係,都差不多。

 

3、拷貝一些文件

既然用的hadoop1.x集羣,那麼我們使用phoenix目錄下,hadoop1目錄下的內容。

將hadoop1下,phoenix-core-3.x.jar拷貝到hadoop集羣各個節點HBase的lib目錄下。

重啓一下HBase (在這裏可以看出,用phoenix需要重啓hbase,所以選擇hbase查詢工具時,需要考慮一下

4、驗證是否安成功

在主節點上,切換到/root/phoenix/hadoop1/bin目錄下

輸入:

./sqlline.py master:2181

 

201503111803

如果出現這個畫面,那就是成功了。如果不成功,可能是zookeeper配置的有一些問題吧。

好吧,先退出此界面,輸入!quit回車然後就可以退出了。

這個phoenix挺有意思,有一些命令需要輸入歎號的!

 

phoenix的使用

mysql的話,可以CLI命令行的方式操作;可以通過用jdbc,在Java代碼中訪問;可以通過用SQLyog進行訪問管理;

1、phoenix,怎麼用呢?~可以看成是mysql。

①Phoenix可以在CLI下操作;

②可以用jdbc操作;

③可以用phoenix的一個客戶端工具Squirrel 訪問;

 

2、先說Squirrel吧,這個簡單一些。

Squirrel SQL Client,是一個連接數據庫的客戶端工具。一般支持JDBC的數據庫都可以用它來連接。(如Squirrel連接Mysql)

下載Squirrel SQL Client,解壓縮就可以了。運行

squirrel-sql.bat

就出現了圖形界面。

3、這肯定要說怎樣連Phoenix?

在Squirrel安裝目錄的lib下,添加幾個jar包

a,  phoenix-core-xxx.jar

b,  phoenix-3.0-client.jar

c,  hbase-0.94.18.jar

d,  hadoop1.0.4.jar

e,  hadoop-common-xxx.jar

20140905150155281

 

需要點擊“Drivers”,將phoenix的驅動添加進去。

點擊左上角 藍色的 “ + ” 加號,添加

201503111810

 

按上面的順序,依次填寫。

第一步,Name:隨便寫個名字,標記連接;

第二步,Example URL:相當於mysql的jdbc連接串,這裏的alias寫zookeeper的主機名稱,端口號,可以寫,可以不寫,我一般不寫;

第三步,選擇Phoenix-core的jar包;

第四步,就是手動輸入org.apache.phoenix.jdbc.PhoenixDriver。

然後點擊OK。

配置連接

201503111812

 

Name:爲隨便起的名稱。

Driver:選中③中添加的phoenix驅動。

URL:寫如上內容,jdbc:phoenix:node1,node2,master等這裏主要是zookeeper主機名。

User Name:要連接的主機的用戶名

Password:要連接的主機的密碼

點擊Test可以進行測試,或點OK連接。

連接完畢,啓動後,就可以看到如下的效果了。這裏我已經創建了幾個表了,這些表都是存在於HBase上的。

QQ截圖20150311191101

 

4、Squirrel的一些佈局簡介(看上面這個圖):

1,用squirrel建立的一些連接

2,當前連接下,所有對象,包括主見系統表,普通表,視圖。

3,爲表,這些表都是實際存在於zookeeper所管理的HBase上的。右鍵此表,可以對錶進行管理。

4,爲視圖。

5,編寫sql腳本的地方,可以輸入腳本執行。腳本執行方式,在5上面有一個小人,選中sql,點擊小人就可以執行了。或者按ctrl + enter鍵,執行。

6,爲選中的對象的一些基本信息,列信息,行數等。

7,爲sql執行的一些狀態。

 

5、在Squirrel中建表或視圖

在Squirrel中創建表的過程主要是編寫sql,進行執行。sql該怎麼寫,需要看phoenix驅動都支持什麼效果。

這需要看phoenix的官網了。

需要注意的是phoenix是區分大小寫的;

自己定義的HBase中的 HTableName,ColumnFamily,以及字段Column,需要和Phoenix中保持一致。(最好都用大寫)

 

phoenix操作hbase,我們有兩種方式,創建表,創建視圖。

這兩種方式,有區別。

創建表的話,可讀可寫,就可以對HBase進行插入,查詢,刪除操作。

視圖的話,是隻讀的,一般就只可以進行查詢操作

雖然看起來,表的功能,比視圖更強大一些。但是就像是mysql等關係型數據庫一樣,刪除表操作,會將表刪掉。但是刪除視圖操作,卻不會影響原始表的結構。

因爲使用phoenix,創建表後,會自動和hbase建立關聯映射。當你使用phoenix刪除和hbase之間的關係時,就會將hbase中的表也刪掉了

所以用視圖,會對原始的HBase表影響小一些。

6、用phoenix可以創建表

(1)若hbase中,不存在名爲htablename或htablename2的HTable:

1
2
3
4
5
6
create htablename(
    pk VARCHAR primary key not null,
    col1 VARCHAR null,
    col2 VARCHAR null,
    col3 VARCHAR null
)

 

1
2
3
4
5
6
7
create htablename2(
    pk VARCHAR primary key null,
    "cf"."col1" VARCHAR null,
    "cf"."col2" VARCHAR null,
    "cf2"."col3" VARCHAR null,
    "cf2"."col4" VARCHAR null
)

在SQuirreL中執行上面的SQL腳本,執行過程中,如果出現錯誤,會在工具的下面進行提示。

若成功後,就可以在HBase中看到這個表了,而且在SQuirrel中,看到此表。

(2)若hbase存在htablename3,但SQuirrel中看不到時

當安裝好SQuirrel時,本以爲連上hbase後,就可以在SQuirrel中看到hbase中的表了。但是並沒有看到,也不會顯示。

如果要想看到hbase中已存在的表,還需要一些操作。

 

也就是如果想要在SQuirrel中,看到htablename3,且想要對htablename3進行操作。

也還是需要在SQuirreL中進行執行創建表的操作,執行完畢後,就會將HBase的htablename3,映射到SQuirreL中。

這樣我們就可以在Java api中進行操作了。否則是不可以的。

 

那麼需要哪些具體操作呢?其實很簡單,我當時沒想到

就像創建表一樣,使用Create table就可以了。就這樣簡單。

不過這個語句怎麼寫呢?怎樣對應呢?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
create htablename3(
 
    --這句話直接寫就可以了,這樣的話,HBase中的RowKey轉換成phoenix中的主鍵,列名就叫 pk。
    --rowkey自動會和primary key進行對應。
    pk VARCHAR primary key null,
 
    --將名爲cf的columnFamily下,字段名爲col1的字段,寫在這裏。
    "cf"."col1" VARCHAR null,
 
    --將名爲cf的columnFamily下,字段名爲col2的字段,寫在這裏。。。下面就以此類推
    "cf"."col2" VARCHAR null,
    "cf2"."col3" VARCHAR null,
    "cf2"."col4" VARCHAR null
)

然後在SQuirreL中執行,然後就可以看到數據了。

不過此時,可能還會有問題,亂碼。 在SQuirrel中,主鍵以及一些包含漢字的字段,都是方塊等亂碼了。這個怎麼解決???(暫未解決)

 

7、用phoenix可以創建視圖

假如,要對剛剛創建的表htablenameX創建視圖操作

CREATE  VIEW  “htablenameX”   (pk VARCHAR primary key)   default_column_family = ‘FM’

創建完成後,這裏的“htablenameX” 是HBase中table “htablenameX”的名稱。然後定義一個主鍵,就可以了。

 

可能還不太清楚,看下面

(1)第一種視圖,假如HBase中存在表”DAMAI”,需要以視圖的方式,操作它,那麼開始創建視圖

CREATE VIEW “DAMAI” ( PK VARCHAR PRIMARY KEY) DEFAULT_COLUMN_FAMILY=’FM’

這裏雙引號內的 “DAMAI” 和HBase中的表名是一樣的,所以會自動關聯。

會自動對應表名,自動關聯字段。

這裏需要注意:創建視圖時,要保證在SQuirrel工具中,沒有相同名稱的表存在。

201503111847

 

那麼,如果想針對HBase中的一個表,建多個視圖呢?慢慢來

 

(2)第二種視圖,可以在Phoenix table的基礎上創建

CREATE VIEW my_VIEW (new_col VARCHAR,new_col2 VARCHAR) AS SELECT * FROM phoenix_TableWHERE ……

也就是,原來在phoenix中,已經創建了表了。

例如:htablename2。在htablename2上建立一個視圖,叫”mingzisuibian”  (名字隨便)

CREATE VIEW mingzisuibian ( new_col VARCHAR, new_col2  VARCHAR )  AS SELECT * FROMhtablename2 WHERE ….(針對htablename2的查詢條件)

 

(3)第三種建視圖的方式,是在視圖之上建立視圖

CREATE VIEW my_VIEW_ON_VIEW AS SELECT * FROM MY_VIEW WHERE ……

在(1)中,我們創建了一個視圖 “DAMAI”。這裏麪包括了全部的字段。

所以說,在創建DAMAI視圖的時候,可以將全部字段都包括進來。

所以,我們可以在DAMAI這個視圖之上,創建其它視圖,這樣視圖的名稱,就可以隨便定了。

例如:

CREATE VIEW BIGBIG AS SELECT * FROM DAMAI WHERE ……

不斷往hbase中,添加數據,隨着數據的增長,在phoenix建的視圖中也可以看到的數據的條數,在同步增加。

 

綜上所述,從上面可以看出,爲了避免影響hbase的表信息,最好是創建一個視圖。然後在視圖的基礎上,再創建其它視圖。

也就是,先執行視圖裏面的(1),再執行視圖裏面的(3)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章