用DolphinScheduler輕鬆實現Flume數據採集任務自動化!

file

轉載自天地風雷水火山澤

目的

因爲我們的數倉數據源是Kafka,離線數倉需要用Flume採集Kafka中的數據到HDFS中。 在實際項目中,我們不可能一直在Xshell中啓動Flume任務,一是因爲項目的Flume任務很多,二是一旦Xshell頁面關閉Flume任務就會停止,這樣非常不方便,因此必須在後臺啓動Flume任務。 所以經過測試後,我發現海豚調度器也可以啓動Flume任務。 file

海豚調度Flume任務配置

(一)Flume在Linux中的路徑 file

(二)Flume任務文件在Linux中的位置以及任務文件名 file

(三)在海豚中配置運行腳本 file

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/爲Flume在Linux中的安裝,根據自己安裝路徑進行調整 (四)海豚任務配置好後就可以啓動海豚任務 file

(五)在HDFS對應文件夾中驗證是否採集到數據 file 可以看到,Flume採集Kafka數據成功寫入到HDFS中,成功實現用Apache DolphinScheduler執行Flume任務的目的!
原文鏈接: https://blog.csdn.net/tiantang2renjian/article/details/136399112

本文由 白鯨開源科技 提供發佈支持!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章