爲什麼使用Zookeeper?
Zookeeper的特性
dataDir=/usr/local/zk/data
只運行在一臺服務器上,適合測試環境;Zookeeper 的啓動腳本在bin 目錄下;在啓動腳本之前,還有幾個基本的配置項需要配置一下,tickTime:這個時間是作爲 Zookeeper 服務器之間或客戶端與服務器之間維持心跳的時間間隔,也就是每個 tickTime 時間就會發送一個心跳;dataDir:顧名思義就是 Zookeeper保存數據的目錄,默認情況下,Zookeeper 將寫數據的日誌文件也保存在這個目錄裏;clientPort:這個端口就是客戶端連接 Zookeeper 服務器的端口,Zookeeper會監聽這個端口,接受客戶端的訪問請求。當這些配置項配置好後,就可以啓動 Zookeeper 了,啓動後使用命令echo ruok | nclocalhost 2181檢查 Zookeeper是否已經在服務
1.ZooKeeper
1.1 zk可以用來保證數據在zk集羣之間的數據的事務性一致。
2.如何搭建ZooKeeper服務器集羣
2.1 zk服務器集羣規模不小於3個節點,要求各服務器之間系統時間要保持一致。
2.2 在hadoop0的/usr/local目錄下,解壓縮zk....tar.gz,設置環境變量
2.3 在conf目錄下,修改文件 vi zoo_sample.cfg zoo.cfg
2.4 編輯該文件,執行vi zoo.cfg
修改dataDir=/usr/local/zk/data
新增server.0=hadoop0:2888:3888
server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888
2.5 創建文件夾mkdir /usr/local/zk/data
2.6 在data目錄下,創建文件myid,值爲0
2.7 把zk目錄複製到hadoop1和hadoop2中
2.8 把hadoop1中相應的myid的值改爲1
把hadoop2中相應的myid的值改爲2
2.9 啓動,在三個節點上分別執行命令zkServer.sh start
2.10 檢驗,在三個節點上分別執行命令zkServer.sh status
Zookeeper 不僅可以單機提供服務,同時也支持多機組成集羣來提供服務 , 實際上 Zookeeper還支持另外一種僞集羣的方式,也就是可以在一臺物理機上運行多個 Zookeeper 實例;nitLimit:這個配置項是用來配置 Zookeeper 接受客戶端(這裏所說的客戶端不是用戶連接 Zookeeper 服務器的客戶端,而是 Zookeeper 服務器集羣中連接到 Leader 的 Follower 服務器)初始化連接時最長能忍受多少個心跳時間間隔數。當已經超過 10 個心跳的時間(也就是 tickTime)長度後Zookeeper 服務器還沒有收到客戶端的返回信息,那麼表明這個客戶端連接失敗。總的時間長度就是 5*2000=10 秒;syncLimit:這個配置項標識 Leader 與 Follower 之間發送消息,請求和應答時間長度,最長不能超過多少個 tickTime的時間長度,總的時間長度就是 2*2000=4 秒;server.A=B:C:D:其中 A 是一個數字,表示這個是第幾號服務器;B 是這個服務器的ip地址;C 表示的是這個服務器與集羣中的 Leader 服務器交換信息的端口;D 表示的是萬一集羣中的 Leader 服務器掛了,需要一個端口來重新進行選舉,選出一個新的Leader,而這個端口就是用來執行選舉時服務器相互通信的端口。如果是僞集羣的配置方式,由於 B 都是一樣,所以不同的 Zookeeper 實例通信端口號不能一樣,所以要給它們分配不同的端口號。除了修改 zoo.cfg 配置文件,集羣模式下還要配置一個文件 myid,這個文件在dataDir目錄下,這個文件裏面就有一個數據就是 A 的值,Zookeeper 啓動時會讀取這個文件,拿到裏面的數據與 zoo.cfg 裏面的配置信息比較從而判斷到底是那個server。分別在3臺機器上啓動ZooKeeper的Server:shbin/zkServer.sh start;運行於一個集羣上,適合生產環境,這個計算機集羣被稱爲一個“集合體”(ensemble)。Zookeeper通過複製來實現高可用性,只要集合體中半數以上的機器處於可用狀態,它就能夠保證服務繼續。爲什麼一定要超過半數呢?這跟Zookeeper的複製策略有關:zookeeper確保對znode樹的每一個修改都會被複制到集合體中超過半數的機器上。
Zookeeper的數據模型
Zookeeper的角色