原创 flume學習(五):flume將log4j日誌數據寫入到hdfs

問題導讀1.將log4j的日誌輸出到agent的日誌文件當中,應如何配置文件?2.把log4j的日誌直接採集輸出到hdfs中去,如何修改flume.conf中sink的配置?在第一篇文章中我們是將log4j的日誌輸出到了agent的日誌文

原创 flume學習(七)、(八):如何使用event header中的key值以及自定義source

問題導讀 1.如何使用event header中的key值? 2.如何部署擴展自定義的spooling directory source? 前面我們已經說到我們在header中添加了一個key爲:flume.client.

原创 flume學習(九):自定義攔截器

問題導讀1.如何添加攔截器RegexExtractorExtInterceptor?2.改動的內容中是如何增加兩個配置參數?還是針對學習八中的那個需求,我們現在換一種實現方式,採用攔截器來實現。先回想一下,spooldir source可

原创 flume學習(四):Flume Channel Selectors使用

問題導讀 1、怎樣將不同項目的的日誌輸出到不同的channel? 2、如何理解一個sink爲hdfs,一個sink爲logger的拓撲結構? 3、怎樣在Log4jExtAppender.java類裏擴展一個參數? 前幾篇文章只有

原创 flume學習(十):使用Morphline Interceptor

問題導讀1.Morphline是幹嘛用的?2.如何將message屬性添加到event的headers當中?Morphline是幹嘛用的?簡單點說就是一個ETL工具,詳細介紹:http://kitesdk.org/docs/current

原创 flume學習(十一):如何使用Spooling Directory Source

問題導讀 1.如何理解將FTP上的信令數據匯聚到HDFS上去存儲? 2.使用Spooling Directory Source的時候同時讀寫一個文件會怎樣? 最近在弄一個信令數據匯聚的事情,主要目的是把FTP上的信令數據匯聚到HDFS

原创 flume學習(二):如何找到cm安裝的flume的配置文件

問題導讀1、如何將log4j的日誌輸出到agent的日誌文件當中?2、怎麼將sink的type由logger變爲hdfs?3、報錯?你給目錄授權了嗎?通過CM安裝好flume-ng之後,可以在管理界面上修改flume.conf配置,但是

原创 flume的級別的架構使用--實際場景應用--可以用於分佈式的服務形式的日誌採集

首先這個是我的原創文章,也參考了網絡上的各位大神的文章加上自己的總結,歡迎各位大神指出錯誤!我們共同進步! flume級別的架構使用(常用模式) 直接上乾貨,文字性的描述有 1.介紹: log是各個分佈式服務的日誌,可用從web的ser

原创 kafka丟數據和數據重複

首先這個是我的原創文章,也參考了網絡上的各位大神的文章加上自己的總結,歡迎各位大神指出錯誤!我們共同進步! 1.kafka的數據交換是在哪裏完成? kafka設計的初衷是盡一切努力在內存中完成數據交換,無論是對外的系統,或是內部存底層的

原创 flume學習(三):Flume Interceptors的使用

問題導讀1、如何理解flume攔截器?2、如何使用regex_filter和 timestamp這兩個攔截器來實現一個較強的功能?3、怎樣爲source1添加了兩個攔截器?對於flume攔截器,我的理解是:在app(應用程序日誌)和 so

原创 zookeeper的實用場景—

數據發佈/訂閱 就是發佈者把數據發送到zookeeper的一個或者一系列的節點上,供訂閱者進行訂閱。從而達到動態獲取數據的目的,能夠實現配置信息的集中式管理和數據的動態更新。 一般的類似於發佈/訂閱的模式有推和拉的兩種方式,而在zook

原创 zookeeper的實用場景二

1.先上原理圖 2.說明 兩個mysql採用主主同步的方式進行部署。 在安裝mysql的服務器上安裝客戶端(目前是這麼做,以後想在zookeeper擴展集成),客戶端實時監控mysql應用的可用性,可用時想zookeeperc

原创 在使用Spark Streaming向HDFS中保存數據時,文件內容會被覆蓋掉的解決方案

我的Spark Streaming代碼如下所示: 全選複製放進筆記val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DI

原创 flume學習(六):使用hive來分析flume收集的日誌數據

問題導讀 1.遇到無法轉換成JSON對象的字符串時應如何處理? 2.遇到非JSON格式輸入的時候應如何處理? 前面已經講過如何將log4j的日誌輸出到指定的hdfs目錄,我們前面的指定目錄爲/flume/events。 如

原创 flume學習(一):log4j直接輸出日誌到flume

問題導讀1、如何讓log4j直接輸出日誌到flume?2、如何寫一個簡單的測試類來測試呢?3、如何看到log4j的日誌是否輸出到了flume中?log4j.properties配置: log4j.rootLogger=INFO log