大數據日誌分析2:kafka安裝Hadoop簡述flume簡述及demo的搭建

基礎環境搭建完成後需要開始根據我自己的需求進行大數據的demo開發
都的我的主要服務日誌是nignx+egg生成的日誌,eggjs框架集成了log4j,輸出日誌資源已經有了,現在需要對這些日記進行大數據的採集和分析.
今天的博客主要的方向就行對已有的log日誌文件進行採集
採集分析前需要對已經安裝的兩個工具有個大致的瞭解
hadoop和flume都是apache出品

hadoop

Hadoop是一種分析和處理大數據框架,在大量計算機組成的集羣當中實現了對於海量的數據進行的分佈式計算.框架最核心的設計就是:**HDFS和MapReduce**.**HDFS**爲海量的數據提供了**存儲**,則**MapReduce**爲海量的數據提供了**計算**.
數據是通過了Hadoop的集羣處理後得到的結果。處理了流程如下

在這裏插入圖片描述

flume

flume是分佈式的日誌收集系統,它將各個服務器中的數據收集起來並送到指定的地方,比如送到HDFS,簡單來說flume就是收集日誌的,且數據源可定製.
flume的核心是把數據從數據源(source)收集過來,再將收集到的數據送到指定的目的地(sink)。爲了保證輸送的過程一定成功,在送到目的地(sink)之前,會先緩存數據(channel),待數據真正到達目的地(sink)後,flume再刪除己緩存的數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章