StreamSets(StreamSets Data Collector)是一款開源的強大的實時數據採集和ETL工具,數據源支持包括結構化和半/非結構化,目標源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一個拖拽式的可視化數據流程設計界面,定時任務調度等功能。StreamSets有多種安裝方式,可以使用tar包、rpm包、Cloudera Parcels等方式進行安裝。由於小編所使用的集羣爲CDH,故本文就只對其如何集成到CDH中進行敘述~
目錄
一、下載StreamSets相關安裝包
由於CDH中並沒有集成StreamSets,所以安裝之前需要我們自己到相應網站下載安裝包,下載請點這裏~
小編這裏下載的是最新的版本3.16.0的,一起來看一下這幾個包:
parcel包:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel
校驗文件:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel.sha
csd文件:STREAMSETS-3.12.0.jar
其中parcel包有五個多G,下載過程可能比較痛苦,請耐心等待~
二、上傳下載的包到指定路徑
1、將csd文件上傳到/opt/cloudera/csd目錄下,並更改所有者和權限:
chown cloudera-scm:cloudera-scm STREAMSETS-3.16.0.jar && chmod 644 STREAMSETS-3.16.0.jar
2、將parcel包和校驗文件上傳至CDH管理節點上的parcel本地存儲庫目錄下並更改所有者和權限:
3、重啓cloudera-scm-server服務
systemctl cloudera-scm-server restart
三、安裝StreamSets
1、監控界面查看配置好的StreamSets安裝包(默認應該是“未分配/未激活”的狀態,因爲小編這裏已經安裝,所以顯示的是“已分配/已激活”),這裏分配激活一下即可。
2、分配激活後,開始安裝。選擇“操作”-->“添加服務”
3、找到StreamSets,選中點擊“繼續”
4、選擇一個主機,點擊“繼續”,其餘界面可以選擇默認,等待完成安裝即可。
5、監控界面可以看到已經安裝完成的StreamSets
6、點擊監控界面的StreamSets,進入相關頁面,點擊下圖所示按鈕打開StreamSets
7、首次啓動可能需要註冊,默認密碼是admin/admin
好了,到此,咱們的CDH集羣安裝StreamSets也就講解完了,你們在此過程中遇到了什麼問題,歡迎留言,讓我看看你們遇到了什麼問題~