1.將log4j的日誌輸出到agent的日誌文件當中,應如何配置文件?
2.把log4j的日誌直接採集輸出到hdfs中去,如何修改flume.conf中sink的配置?
在第一篇文章中我們是將log4j的日誌輸出到了agent的日誌文件當中。配置文件如下:
-
tier1.sources=source1
-
tier1.channels=channel1
-
tier1.sinks=sink1
-
-
tier1.sources.source1.type=avro
-
tier1.sources.source1.bind=0.0.0.0
-
tier1.sources.source1.port=44444
-
tier1.sources.source1.channels=channel1
-
-
tier1.channels.channel1.type=memory
-
tier1.channels.channel1.capacity=10000
-
tier1.channels.channel1.transactionCapacity=1000
-
tier1.channels.channel1.keep-alive=30
-
-
tier1.sinks.sink1.type=logger
- tier1.sinks.sink1.channel=channel1
本次我們把log4j的日誌直接採集輸出到hdfs中去。需要修改flume.conf中sink的配置:
-
tier1.sources=source1
-
tier1.channels=channel1
-
tier1.sinks=sink1
-
-
tier1.sources.source1.type=avro
-
tier1.sources.source1.bind=0.0.0.0
-
tier1.sources.source1.port=44444
-
tier1.sources.source1.channels=channel1
-
-
tier1.channels.channel1.type=memory
-
tier1.channels.channel1.capacity=10000
-
tier1.channels.channel1.transactionCapacity=1000
-
tier1.channels.channel1.keep-alive=30
-
-
tier1.sinks.sink1.type=hdfs
-
tier1.sinks.sink1.channel=channel1
-
tier1.sinks.sink1.hdfs.path=hdfs://master68:8020/flume/events
-
tier1.sinks.sink1.hdfs.fileType=DataStream
-
tier1.sinks.sink1.hdfs.writeFormat=Text
-
tier1.sinks.sink1.hdfs.rollInterval=0
-
tier1.sinks.sink1.hdfs.rollSize=10240
-
tier1.sinks.sink1.hdfs.rollCount=0
-
tier1.sinks.sink1.hdfs.idleTimeout=60
-
下面幾個roll開頭的參數都是用來控制滾動日誌輸出的,官方文檔上的說明也很詳細,我這裏配置的只按文件大小來滾動rollSize=10240,也就是10K滾動生成一個新的文件用來接收新的EVENTS。實際中這個Size應該更大一些,我覺得設置成HDFS的blocksize大小應該挺合適的。
idleTimeout設置爲60秒(默認值爲0),這裏面的原理是這樣的,flume裏面每生成一個接收文件時的命名規則如:FlumeData.1406251462179.tmp,.tmp表示這個文件正在被使用來接收EVENTS,當滿10K之後,這個文件會被rename成FlumeData.1406251462179,把.tmp後綴去掉,但是如果你停止了應用程序後,FlumeData.1406251462179.tmp還沒滿10K,按照默認的idleTimeout設置,不會將它rename,也就是.tmp後綴一直在,造成了這個文件一直在使用當中的一個假象,這是有問題的,我們設置idleTimeout=60,即60秒後這個文件還沒有被寫入數據,就會關閉它然後rename它去掉.tmp,以後新進來的events,會新開一個.tmp文件來接收。
我們再運行第一篇文章中的那個示例應用程序,然後去path指定的目錄下面就能看到log4j輸出的日誌信息了。
補充注意點(針對cm安裝的flume):
首先在hdfs上創建/flume目錄:hadoop fs -mkdir /flume
給該目錄授權給flume用戶和組:hadoop fs -chown -R flume:flume /flume
注意給目錄授權很重要,不然會報錯。